Crear un clúster de Dataproc con bibliotecas cliente
El siguiente código de muestra indica cómo usar las bibliotecas cliente de Cloud para crear un clúster de Dataproc, ejecutar un trabajo en el clúster y, luego, borrar el clúster.
También puedes realizar estas tareas con las siguientes herramientas:
- Solicitudes de la API de REST en la Guía de inicio rápido sobre el uso del Explorador de API
- Google Cloud Console en Crea un clúster de Dataproc con Cloud Console
- La CLI de Google Cloud en Crea un clúster de Dataproc con la CLI de Google Cloud
Antes de comenzar
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Obtén información sobre cómo verificar si la facturación está habilitada en un proyecto.
-
Habilita la API de Dataproc.
-
En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Obtén información sobre cómo verificar si la facturación está habilitada en un proyecto.
-
Habilita la API de Dataproc.
Ejecuta el código
Prueba la explicación: Haz clic en Abrir en Cloud Shell para ejecutar una explicación de las bibliotecas cliente de Cloud para Python que crea un clúster, ejecuta un trabajo de PySpark y, luego, borra el clúster.
Go
- Instala la biblioteca cliente Para obtener más información, consulta la documentación sobre cómo configurar tu entorno de desarrollo.
- Configura la autenticación
- Clona y ejecuta el código de muestra de GitHub.
- Revisa el resultado. El código muestra el registro del controlador del trabajo en el bucket de staging predeterminado de Dataproc en Cloud Storage. Puedes ver el resultado del controlador del trabajo desde Cloud Console en la sección Trabajos de Dataproc de tu proyecto. Haz clic en el ID de tarea para ver el resultado del trabajo en la página Detalles del trabajo.
Java
- Instala la biblioteca cliente Para obtener más información, consulta la documentación sobre cómo configurar un entorno de desarrollo Java.
- Configura la autenticación
- Clona y ejecuta el código de muestra de GitHub.
- Revisa el resultado. El código muestra el registro del controlador del trabajo en el bucket de staging predeterminado de Dataproc en Cloud Storage. Puedes ver el resultado del controlador del trabajo desde Cloud Console en la sección Trabajos de Dataproc de tu proyecto. Haz clic en el ID de tarea para ver el resultado del trabajo en la página Detalles del trabajo.
Node.js
- Instala la biblioteca cliente Para obtener más información, consulta la documentación sobre cómo configurar un entorno de desarrollo de Node.js.
- Configura la autenticación
- Clona y ejecuta el código de muestra de GitHub.
- Revisa el resultado. El código muestra el registro del controlador del trabajo en el bucket de staging predeterminado de Dataproc en Cloud Storage. Puedes ver el resultado del controlador del trabajo desde Cloud Console en la sección Trabajos de Dataproc de tu proyecto. Haz clic en el ID de tarea para ver el resultado del trabajo en la página Detalles del trabajo.
Python
- Instala la biblioteca cliente Para obtener más información, consulta la documentación sobre cómo configurar un entorno de desarrollo de Python.
- Configura la autenticación
- Clona y ejecuta el código de muestra de GitHub.
- Revisa el resultado. El código muestra el registro del controlador del trabajo en el bucket de staging predeterminado de Dataproc en Cloud Storage. Puedes ver el resultado del controlador del trabajo desde Cloud Console en la sección Trabajos de Dataproc de tu proyecto. Haz clic en el ID de tarea para ver el resultado del trabajo en la página Detalles del trabajo.
¿Qué sigue?
- Consulta la Biblioteca cliente de Cloud de Dataproc para obtener más recursos.