Cette page inclut un tutoriel Cloud Shell qui se sert des bibliothèques clientes Google Cloud pour Python pour appeler les API gRPC Dataproc de manière automatisée, afin de créer un cluster et lui envoyer une tâche.
Les sections suivantes décrivent le fonctionnement du code du tutoriel contenu dans le dépôt GitHub GoogleCloudPlatform/python-dataproc.
Exécuter le tutoriel Cloud Shell
Cliquez sur Ouvrir dans Cloud Shell pour exécuter le tutoriel.
Comprendre le code
Identifiants par défaut de l'application
Le tutoriel Cloud Shell de ce tutoriel fournit une authentification à l'aide des identifiants de votre projet Google Cloud. Lorsque vous exécutez du code en local, il est recommandé de l'authentifier à l'aide des identifiants du compte de service.
Créer un cluster Dataproc
Les valeurs suivantes sont définies pour créer le cluster:
- Le projet dans lequel le cluster sera créé
- Région dans laquelle le cluster sera créé
- Le nom du cluster
- La configuration du cluster, qui spécifie un nœud de calcul maître et deux nœuds de calcul principaux
Les paramètres de configuration par défaut sont utilisés pour les paramètres de cluster restants. Vous pouvez remplacer les paramètres de configuration du cluster par défaut. Par exemple, vous pouvez ajouter des VM secondaires (par défaut = 0) ou spécifier un réseau VPC autre que celui par défaut pour le cluster. Pour en savoir plus, consultez la section CreateCluster.
Envoyer un job
Les valeurs suivantes sont définies pour envoyer la tâche:
- Le projet dans lequel le cluster sera créé
- Région dans laquelle le cluster sera créé
- La configuration de la tâche, qui spécifie le nom du cluster et le chemin de fichier (URI) Cloud Storage de la tâche PySpark
Consultez la section SubmitJob pour plus d'informations.
Supprimer le cluster
Les valeurs suivantes sont définies pour supprimer le cluster:
- Le projet dans lequel le cluster sera créé
- Région dans laquelle le cluster sera créé
- Le nom du cluster
Pour en savoir plus, consultez la section DeleteCluster.