Crea un clúster de Dataproc con bibliotecas cliente
El siguiente código de muestra indica cómo usar las bibliotecas cliente de Cloud para crear un clúster de Dataproc, ejecutar un trabajo en el clúster y, luego, borrar el clúster.
También puedes realizar estas tareas con las siguientes herramientas:
- Solicitudes de la API de REST en la Guía de inicio rápido sobre el uso del Explorador de API
- la consola de Google Cloud en Crea un clúster de Dataproc con la consola de Google Cloud
- Google Cloud CLI en Crea un clúster de Dataproc con Google Cloud CLI
Antes de comenzar
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Habilita la API de Dataproc.
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Habilita la API de Dataproc.
Ejecuta el código
Prueba la explicación: Haz clic en Abrir en Cloud Shell para ejecutar una explicación de las bibliotecas cliente de Cloud en Python que crea un clúster, ejecuta un trabajo de PySpark y, luego, borra el clúster.
Go
- Instala la biblioteca cliente Para obtener más información, consulta la documentación sobre cómo configurar tu entorno de desarrollo.
- Configura la autenticación
- Clona y ejecuta el código de muestra de GitHub.
- Revisa el resultado. El código muestra el registro del controlador del trabajo en el bucket de staging predeterminado de Dataproc en Cloud Storage. Puedes ver el resultado del controlador de trabajos desde Google Cloud Console en la sección Trabajos de Dataproc de tu proyecto. Haz clic en el ID de tarea para ver el resultado del trabajo en la página Detalles del trabajo.
Java
- Instala la biblioteca cliente Para obtener más información, consulta la documentación sobre cómo configurar un entorno de desarrollo Java.
- Configura la autenticación
- Clona y ejecuta el código de muestra de GitHub.
- Revisa el resultado. El código muestra el registro del controlador del trabajo en el bucket de staging predeterminado de Dataproc en Cloud Storage. Puedes ver el resultado del controlador de trabajos desde Google Cloud Console en la sección Trabajos de Dataproc de tu proyecto. Haz clic en el ID de tarea para ver el resultado del trabajo en la página Detalles del trabajo.
Node.js
- Instala la biblioteca cliente Para obtener más información, consulta la documentación sobre cómo configurar un entorno de desarrollo de Node.js.
- Configura la autenticación
- Clona y ejecuta el código de muestra de GitHub.
- Revisa el resultado. El código muestra el registro del controlador del trabajo en el bucket de staging predeterminado de Dataproc en Cloud Storage. Puedes ver el resultado del controlador de trabajos desde Google Cloud Console en la sección Trabajos de Dataproc de tu proyecto. Haz clic en el ID de tarea para ver el resultado del trabajo en la página Detalles del trabajo.
Python
- Instala la biblioteca cliente Para obtener más información, consulta la documentación sobre cómo configurar un entorno de desarrollo de Python.
- Configura la autenticación
- Clona y ejecuta el código de muestra de GitHub.
- Revisa el resultado. El código muestra el registro del controlador del trabajo en el bucket de staging predeterminado de Dataproc en Cloud Storage. Puedes ver el resultado del controlador de trabajos desde Google Cloud Console en la sección Trabajos de Dataproc de tu proyecto. Haz clic en el ID de tarea para ver el resultado del trabajo en la página Detalles del trabajo.
¿Qué sigue?
- Consulta la Biblioteca cliente de Cloud de Dataproc Recursos adicionales.