Créer un cluster Dataproc à l'aide de la console Google Cloud

Cette page explique comment utiliser la console Google Cloud pour créer un cluster Dataproc, exécuter une tâche Apache Spark de base dans le cluster, puis modifier le nombre de nœuds de calcul dans le cluster.


Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud, cliquez sur Visite guidée :

Visite guidée


Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Enable the API

Créer un cluster

  1. Dans la console Google Cloud, accédez à la page Clusters Dataproc.

    Accéder aux clusters

  2. Cliquez sur Créer un cluster.

  3. Dans la boîte de dialogue Créer un cluster Dataproc, cliquez sur Créer dans la ligne Cluster sur Compute Engine.

  4. Dans le champ Cluster Name (Nom du cluster), saisissez example-cluster.

  5. Dans les listes Région et Zone, sélectionnez une région et une zone.

    Sélectionnez une région (par exemple, us-east1 ou europe-west1) pour isoler les ressources, telles que les instances de machine virtuelle (VM), Cloud Storage et les emplacements de stockage de métadonnées utilisés par Dataproc dans la région. Pour en savoir plus, consultez les pages Régions et zones disponibles et Points de terminaison régionaux.

  6. Pour toutes les autres options, utilisez les paramètres par défaut.

  7. Pour créer le cluster, cliquez sur Créer.

    Votre nouveau cluster apparaît dans une liste sur la page Clusters (Clusters). L'état indique Provisioning (Provisionnement) jusqu'à ce que le cluster soit prêt à être utilisé, puis passe à Running (En cours d'exécution). Le provisionnement du cluster peut prendre quelques minutes.

Envoyer une tâche Spark

Envoyez une tâche Spark qui estime une valeur de pi:

  1. Dans le menu de navigation de Dataproc, cliquez sur Jobs.
  2. Sur la page Jobs (Tâches), cliquez sur Submit job (Envoyer une tâche), puis procédez comme suit:

    1. Dans le champ Cluster (Cluster), cliquez sur Browse (Parcourir).
    2. Sur la ligne de example-cluster, cliquez sur Sélectionner.
    3. Dans le champ ID de tâche, utilisez le paramètre par défaut ou fournissez un ID propre à votre projet Google Cloud.
    4. Dans le champ Job type (Type de tâche), sélectionnez Spark.
    5. Dans le champ Main class or jar (Classe principale ou fichier JAR), saisissez org.apache.spark.examples.SparkPi.
    6. Dans le champ Fichiers JAR, saisissez file:///usr/lib/spark/examples/jars/spark-examples.jar.
    7. Dans le champ Arguments, saisissez 1000 pour définir le nombre de tâches.

    8. Cliquez sur Envoyer.

      Votre tâche s'affiche sur la page Informations sur la tâche. L'état de la tâche est Running (En cours d'exécution) ou Starting (Démarrage), puis passe à Succeeded (Réussi) une fois l'opération envoyée.

      Pour éviter le défilement dans la sortie, cliquez sur Retour à la ligne: désactivé. Le résultat ressemble à ce qui suit:

      Pi is roughly 3.1416759514167594
      

      Pour afficher les détails de la tâche, cliquez sur l'onglet Configuration.

Mettre à jour un cluster

Mettez à jour votre cluster en modifiant le nombre d'instances de nœuds de calcul:

  1. Dans le menu de navigation, cliquez sur Clusters.
  2. Dans la liste des clusters, cliquez sur example-cluster.
  3. Sur la page Détails du cluster, cliquez sur l'onglet Configuration.

    Les paramètres de votre cluster s'affichent.

  4. Cliquez sur Modifier.

  5. Dans le champ Nœuds de calcul, saisissez 5.

  6. Cliquez sur Enregistrer.

Votre cluster est maintenant mis à jour. Pour rétablir la valeur d'origine du nombre de nœuds de calcul, suivez la même procédure.

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :

  1. Sur la page Détails du cluster pour example-cluster, cliquez sur Supprimer pour supprimer le cluster.
  2. Pour confirmer la suppression du cluster, cliquez sur Supprimer.

Étape suivante