Cette page a été traduite par l'API Cloud Translation.
Switch to English

Démarrage rapide avec la console

Cette page explique comment utiliser Google Cloud Console pour créer un cluster Dataproc, exécuter une tâche Apache Spark simple dans le cluster, puis modifier le nombre de nœuds de calcul dans le cluster.

Vous pouvez découvrir comment exécuter les mêmes tâches dans la section Démarrages rapides avec l'explorateur d'API ou sur la page Démarrage rapide avec l'outil de ligne de commande gcloud.

Avant de commencer

  1. Connectez-vous à votre compte Google.

    Si vous n'en possédez pas déjà un, vous devez en créer un.

  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder à la page de sélection du projet

  3. Assurez-vous que la facturation est activée pour votre projet Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.

  4. Activez l'API Dataproc.

    Activer l'API

Créer un cluster

  1. Accédez à la page Clusters Cloud Dataproc de Cloud Console.
  2. Cliquez sur Créer un cluster.
  3. Saisissez example-cluster dans le champ Nom.
  4. Dans les menus déroulants Région et Zone, sélectionnez une région et une zone pour le cluster. Pour isoler des ressources (par exemple, des instances de VM et Cloud Storage) et les emplacements de stockage des métadonnées utilisés par Dataproc dans la région spécifiée, vous pouvez sélectionner une région distincte, telle que us-east1 ou europe-west1. Si vous sélectionnez une région distincte, vous pouvez sélectionner "No preference" (Aucune préférence) pour la zone afin de laisser Dataproc choisir une zone dans la région sélectionnée pour votre cluster (consultez la page Sélection automatique des zones de Dataproc). Vous pouvez également sélectionner une région "global", qui est un point de terminaison multirégional spécial capable de déployer des instances dans une zone Compute Engine spécifiée par l'utilisateur (lorsque vous sélectionnez ce type de région, vous devez sélectionner une zone). Consultez la page Points de terminaison régionaux pour en savoir plus sur la différence entre les points de terminaison mondiaux et régionaux. Consultez la page Régions et zones disponibles pour plus d'informations sur la sélection d'une région et d'une zone. Vous pouvez également exécuter la commande gcloud compute regions list pour afficher la liste des régions disponibles.
  5. Utilisez les valeurs fournies par défaut pour toutes les autres options.
  6. Cliquez sur Create (Créer) pour créer le cluster.

Votre nouveau cluster apparaît dans la liste des clusters. L'état du cluster indique "Provisionnement" jusqu'à ce qu'il soit prêt à être utilisé, puis passe à "En cours d'exécution".

Envoyer une tâche

Pour exécuter un exemple de tâche Spark, procédez comme suit :

  1. Sélectionnez Jobs (Tâches) dans le menu de navigation de gauche pour passer à la vue des tâches de Dataproc.
  2. Cliquez sur Submit job (Envoyer la tâche).
  3. Vous pouvez accepter l'ID de tâche proposé ou le spécifier vous-même. Il doit être unique dans le projet.
  4. Sélectionnez la région du cluster example-cluster que vous venez de créer.
  5. Sélectionnez example-cluster dans le menu déroulant Cluster.
  6. Sélectionnez Spark dans le menu déroulant Job Type (Type de tâche).
  7. Saisissez org.apache.spark.examples.SparkPi dans le champ Main class or jar (Classe principale ou fichier JAR).
  8. Saisissez file:///usr/lib/spark/examples/jars/spark-examples.jar dans le champ Fichiers JAR.
  9. Saisissez 1000 dans le champ Arguments pour définir le nombre de tâches.
  10. Cliquez sur Envoyer.

Votre tâche doit apparaître dans la liste Jobs (Tâches), qui affiche les tâches de votre projet avec leur cluster, leur type et leur état actuel. La tâche est à l'état "Running" (En cours d'exécution), puis passe à l'état "Succeeded" (Réussie) une fois l'opération terminée. Pour voir le résultat de la tâche terminée, procédez comme suit :

  1. Cliquez sur l'ID de la tâche dans la liste Jobs (Tâches).
  2. Cochez la case Line Wrapping (Renvoi à la ligne automatique) pour éviter d'avoir à faire défiler la page.

Vous pouvez constater que votre tâche est parvenue à calculer une valeur approximative de pi !

Mettre à jour un cluster

Pour modifier le nombre d'instances de nœuds de calcul dans votre cluster, procédez comme suit :

  1. Sélectionnez Clusters dans le volet de navigation de gauche pour revenir à la vue des clusters Cloud Dataproc.
  2. Cliquez sur example-cluster dans la liste Clusters. Par défaut, la page présente un aperçu de l'utilisation du processeur de votre cluster.
  3. Cliquez sur Configuration pour afficher les paramètres actuels de votre cluster.
  4. Cliquez sur Modifier. Vous pouvez maintenant modifier le nombre de nœuds de calcul.
  5. Saisissez 5 dans le champ Worker nodes (Nœuds de calcul).
  6. Cliquez sur Save.

Votre cluster est maintenant mis à jour. Vous pouvez suivre la même procédure si vous souhaitez rétablir la valeur d'origine pour le nombre de nœuds de calcul.

Nettoyer

Pour éviter que les ressources utilisées dans ce guide démarrage rapide soient facturées sur votre compte Google Cloud :

  1. Sur la page du Cluster "example-cluster", cliquez sur Supprimer pour supprimer le cluster. Vous êtes invité à confirmer que vous souhaitez supprimer le cluster. Cliquez sur OK.
  2. Vous devez également supprimer tous les buckets Cloud Storage créés par le cluster à l'aide de la commande suivante :
    gsutil rm gs://bucket/subdir/**
    

Étapes suivantes