Créer un cluster Dataproc à l'aide de bibliothèques clientes
L'exemple de code ci-dessous montre comment utiliser les bibliothèques clientes Cloud pour créer un cluster Dataproc, exécuter une tâche sur le cluster, puis supprimer le cluster.
Pour effectuer ces tâches, vous pouvez également utiliser :
- des requêtes d'API REST dans les guides de démarrage rapide avec l'explorateur d'API ;
- La console Google Cloud, dans la section Créer un cluster Dataproc à l'aide de la console Google Cloud
- La Google Cloud CLI, dans la section Créer un cluster Dataproc à l'aide de la Google Cloud CLI
Avant de commencer
- Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activez l'API Dataproc
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activez l'API Dataproc
Exécuter le Code
Suivez le tutoriel:Cliquez sur Ouvrir dans Cloud Shell pour exécuter un tutoriel sur les bibliothèques clientes Cloud Python afin de créer un cluster, d'exécuter un job PySpark, puis de supprimer le cluster.
Go
- Installez la bibliothèque cliente. Pour plus d'informations, consultez la page Configurer votre environnement de développement.
- Configurez l'authentification.
- Clonez et exécutez l'exemple de code GitHub.
- Consultez le résultat. Le code génère le journal du pilote de tâches dans le bucket de préproduction Dataproc par défaut dans Cloud Storage. Vous pouvez afficher les résultats du pilote de tâches depuis la console Google Cloud dans la section Tâches Dataproc de votre projet. Cliquez sur l'ID de tâche pour afficher le résultat de la tâche sur la page "Job details" (Informations sur la tâche).
Java
- Installez la bibliothèque cliente. Pour plus d'informations, consultez la page Configurer un environnement de développement Java.
- Configurez l'authentification.
- Clonez et exécutez l'exemple de code GitHub.
- Consultez le résultat. Le code génère le journal du pilote de tâches dans le bucket de préproduction Dataproc par défaut dans Cloud Storage. Vous pouvez afficher les résultats du pilote de tâches depuis la console Google Cloud dans la section Tâches Dataproc de votre projet. Cliquez sur l'ID de tâche pour afficher le résultat de la tâche sur la page "Job details" (Informations sur la tâche).
Node.js
- Installez la bibliothèque cliente. Pour plus d'informations, consultez la page Configurer un environnement de développement Node.js.
- Configurez l'authentification.
- Clonez et exécutez l'exemple de code GitHub.
- Consultez le résultat. Le code génère le journal du pilote de tâches dans le bucket de préproduction Dataproc par défaut dans Cloud Storage. Vous pouvez afficher les résultats du pilote de tâches depuis la console Google Cloud dans la section Tâches Dataproc de votre projet. Cliquez sur l'ID de tâche pour afficher le résultat de la tâche sur la page "Job details" (Informations sur la tâche).
Python
- Installez la bibliothèque cliente. Pour plus d'informations, consultez la page Configurer un environnement de développement Python.
- Configurez l'authentification.
- Clonez et exécutez l'exemple de code GitHub.
- Consultez le résultat. Le code génère le journal du pilote de tâches dans le bucket de préproduction Dataproc par défaut dans Cloud Storage. Vous pouvez afficher les résultats du pilote de tâches depuis la console Google Cloud dans la section Tâches Dataproc de votre projet. Cliquez sur l'ID de tâche pour afficher le résultat de la tâche sur la page "Job details" (Informations sur la tâche).
Étapes suivantes
- Consultez la page Autres ressources pour la bibliothèque cliente Cloud Dataproc.