Cette page explique comment utiliser Google Cloud Console pour créer un cluster Dataproc, exécuter une tâche Apache Spark simple dans le cluster, puis modifier le nombre de nœuds de calcul dans le cluster.
Vous pouvez découvrir comment exécuter les mêmes tâches dans la section Démarrages rapides avec l'explorateur d'API ou sur la page Démarrage rapide avec l'outil de ligne de commande gcloud.
Avant de commencer
- Connectez-vous à votre compte Google.
Si vous n'en possédez pas déjà un, vous devez en créer un.
-
Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.
-
Assurez-vous que la facturation est activée pour votre projet Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.
- Activez l'API Dataproc.
Créer un cluster
- Accédez à la page Clusters Cloud Dataproc de Cloud Console.
- Cliquez sur Créer un cluster.
- Saisissez
example-cluster
dans le champ Nom. - Dans les menus déroulants Région et Zone, sélectionnez une région et une zone pour le cluster. Pour isoler des ressources (par exemple, des instances de VM et Cloud Storage) et les emplacements de stockage des métadonnées utilisés par Dataproc dans la région spécifiée, vous pouvez sélectionner une région distincte, telle que
us-east1
oueurope-west1
. Si vous sélectionnez une région distincte, vous pouvez sélectionner "No preference" (Aucune préférence) pour la zone afin de laisser Dataproc choisir une zone dans la région sélectionnée pour votre cluster (consultez la page Sélection automatique des zones de Dataproc). Vous pouvez également sélectionner une région "global
", qui est un point de terminaison multirégional spécial capable de déployer des instances dans une zone Compute Engine spécifiée par l'utilisateur (lorsque vous sélectionnez ce type de région, vous devez sélectionner une zone). Consultez la page Points de terminaison régionaux pour en savoir plus sur la différence entre les points de terminaison mondiaux et régionaux. Consultez la page Régions et zones disponibles pour plus d'informations sur la sélection d'une région et d'une zone. Vous pouvez également exécuter la commandegcloud compute regions list
pour afficher la liste des régions disponibles. - Utilisez les valeurs fournies par défaut pour toutes les autres options.
- Cliquez sur Create (Créer) pour créer le cluster.
Votre nouveau cluster apparaît dans la liste des clusters. L'état du cluster indique "Provisionnement" jusqu'à ce qu'il soit prêt à être utilisé, puis passe à "En cours d'exécution".
Envoyer une tâche
Pour exécuter un exemple de tâche Spark, procédez comme suit :
- Sélectionnez Jobs (Tâches) dans le menu de navigation de gauche pour passer à la vue des tâches de Dataproc.
- Cliquez sur Submit job (Envoyer la tâche).
- Vous pouvez accepter l'ID de tâche proposé ou le spécifier vous-même. Il doit être unique dans le projet.
- Sélectionnez la région du cluster example-cluster que vous venez de créer.
- Sélectionnez example-cluster dans le menu déroulant Cluster.
- Sélectionnez Spark dans le menu déroulant Job Type (Type de tâche).
- Saisissez
org.apache.spark.examples.SparkPi
dans le champ Main class or jar (Classe principale ou fichier JAR). - Saisissez
file:///usr/lib/spark/examples/jars/spark-examples.jar
dans le champ Fichiers JAR. - Saisissez
1000
dans le champ Arguments pour définir le nombre de tâches.
- Cliquez sur Envoyer.
Votre tâche doit apparaître dans la liste Jobs (Tâches), qui affiche les tâches de votre projet avec leur cluster, leur type et leur état actuel. La tâche est à l'état "Running" (En cours d'exécution), puis passe à l'état "Succeeded" (Réussie) une fois l'opération terminée. Pour voir le résultat de la tâche terminée, procédez comme suit :
- Cliquez sur l'ID de la tâche dans la liste Jobs (Tâches).
- Cochez la case Line Wrapping (Renvoi à la ligne automatique) pour éviter d'avoir à faire défiler la page.
Vous pouvez constater que votre tâche est parvenue à calculer une valeur approximative de pi !
Mettre à jour un cluster
Pour modifier le nombre d'instances de nœuds de calcul dans votre cluster, procédez comme suit :
- Sélectionnez Clusters dans le volet de navigation de gauche pour revenir à la vue des clusters Cloud Dataproc.
- Cliquez sur example-cluster dans la liste Clusters. Par défaut, la page présente un aperçu de l'utilisation du processeur de votre cluster.
- Cliquez sur Configuration pour afficher les paramètres actuels de votre cluster.
- Cliquez sur Modifier. Vous pouvez maintenant modifier le nombre de nœuds de calcul.
- Saisissez
5
dans le champ Worker nodes (Nœuds de calcul). - Cliquez sur Save.
Votre cluster est maintenant mis à jour. Vous pouvez suivre la même procédure si vous souhaitez rétablir la valeur d'origine pour le nombre de nœuds de calcul.
Nettoyer
Pour éviter que les ressources utilisées dans ce guide démarrage rapide soient facturées sur votre compte Google Cloud :
- Sur la page du Cluster "example-cluster", cliquez sur Supprimer pour supprimer le cluster. Vous êtes invité à confirmer que vous souhaitez supprimer le cluster. Cliquez sur OK.
- Vous devez également supprimer tous les buckets Cloud Storage créés par le cluster à l'aide de la commande suivante :
gsutil rm gs://bucket/subdir/**
Étapes suivantes
- Découvrez comment écrire et exécuter une tâche Scala.
- Découvrez comment installer et exécuter un bloc-notes Jupyter.