Crear un clúster de Dataproc mediante bibliotecas de cliente
En el código de ejemplo que se muestra a continuación se explica cómo usar las bibliotecas de cliente de Cloud para crear un clúster de Dataproc, ejecutar un trabajo en el clúster y, a continuación, eliminarlo.
También puedes realizar estas tareas con lo siguiente:
- Solicitudes de API REST en las guías de inicio rápido con el Explorador de APIs
- la Google Cloud consola en Crea un clúster de Dataproc mediante la Google Cloud consola
- Google Cloud CLI en Crear un clúster de Dataproc mediante Google Cloud CLI
Antes de empezar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - Instala la biblioteca de cliente. Para obtener más información, consulta el artículo sobre cómo configurar un entorno de desarrollo.
- Configurar la autenticación
- Clona y ejecuta el código de muestra de GitHub.
- Consulta el resultado. El código genera el registro del controlador de la tarea en el segmento de almacenamiento provisional predeterminado de Dataproc en Cloud Storage. Puedes ver la salida del controlador de trabajos desde la Google Cloud consola
en la sección Trabajos
de Dataproc de tu proyecto. Haga clic en el ID de la tarea para ver el resultado de la tarea en la página Detalles de la tarea.
- Instala la biblioteca de cliente. Para obtener más información, consulta el artículo Configurar un entorno de desarrollo de Java.
- Configurar la autenticación
- Clona y ejecuta el código de muestra de GitHub.
- Consulta el resultado. El código genera el registro del controlador de la tarea en el segmento de almacenamiento provisional predeterminado de Dataproc en Cloud Storage. Puedes ver la salida del controlador de trabajos desde la Google Cloud consola
en la sección Trabajos
de Dataproc de tu proyecto. Haga clic en el ID de la tarea para ver el resultado de la tarea en la página Detalles de la tarea.
- Instala la biblioteca de cliente. Para obtener más información, consulta Configurar un entorno de desarrollo de Node.js.
- Configurar la autenticación
- Clona y ejecuta el código de muestra de GitHub.
- Consulta el resultado. El código genera el registro del controlador de la tarea en el segmento de almacenamiento provisional predeterminado de Dataproc en Cloud Storage. Puedes ver la salida del controlador de trabajos desde la Google Cloud consola
en la sección Trabajos
de Dataproc de tu proyecto. Haga clic en el ID de la tarea para ver el resultado de la tarea en la página Detalles de la tarea.
- Instala la biblioteca de cliente. Para obtener más información, consulta el artículo Configurar un entorno de desarrollo de Python.
- Configurar la autenticación
- Clona y ejecuta el código de muestra de GitHub.
- Consulta el resultado. El código genera el registro del controlador de la tarea en el segmento de almacenamiento provisional predeterminado de Dataproc en Cloud Storage. Puedes ver la salida del controlador de trabajos desde la Google Cloud consola
en la sección Trabajos
de Dataproc de tu proyecto. Haga clic en el ID de la tarea para ver el resultado de la tarea en la página Detalles de la tarea.
- Consulta la biblioteca de cliente de Cloud de Dataproc en Recursos adicionales.
Ejecutar el código
Prueba la guía: haz clic en Abrir en Cloud Shell para ejecutar una guía de las bibliotecas de cliente de Cloud para Python que crea un clúster, ejecuta un trabajo de PySpark y, a continuación, elimina el clúster.