En este instructivo, se incluye una explicación de Cloud Shell que usa las bibliotecas cliente de Google Cloud para Python para llamar a las API de gRPC de Dataproc de manera programática a fin de crear un clúster y enviar un trabajo a él.
En las siguientes secciones, se explica el funcionamiento del código de descripción que se incluye en el repositorio GoogleCloudPlatform/python-docs-samples/dataproc de GitHub.
Ejecuta la explicación de Cloud Shell
Haz clic en Open in Cloud Shell (Abrir en Google Cloud Shell) para ejecutar la explicación.
Examina el código
Credencial predeterminada de la aplicación
La explicación de Cloud Shell de este instructivo proporciona autenticación mediante el uso de las credenciales de tu proyecto de Google Cloud. Cuando ejecutas el código de forma local, la práctica recomendada es usar las credenciales de la cuenta de servicio para autenticar tu código.
Crea un clúster de Dataproc
Se establecen los siguientes valores para crear el clúster:
- El proyecto en el que se creará el clúster
- La región en la que se creará el clúster
- El nombre del clúster
- La configuración del clúster, que especifica un trabajador principal y dos trabajadores primarios
Se usan los parámetros de configuración predeterminados para el resto de la configuración del clúster. Puedes anular los parámetros de configuración predeterminados del clúster. Por ejemplo, puedes agregar VMs secundarias (configuración predeterminada = 0) o especificar una red de VPC que no sea predeterminada para el clúster. Para obtener más información, consulta CreateCluster.
Envía un trabajo
Se establecen los siguientes valores para enviar el trabajo:
- El proyecto en el que se creará el clúster
- La región en la que se creará el clúster
- La configuración del trabajo, que especifica el nombre del clúster y la ruta de acceso (URI) de Cloud Storage del trabajo de PySpark
Consulta SubmitJob para obtener más información.
Borra el clúster
Se establecen los siguientes valores para borrar el clúster:
- El proyecto en el que se creará el clúster
- La región en la que se creará el clúster
- El nombre del clúster
Para obtener más información, consulta DeleteCluster.