Créer un cluster Dataproc à l'aide de la console Google Cloud

Cette page explique comment utiliser la console Google Cloud pour créer un cluster Dataproc, exécuter un job Apache Spark de base dans le cluster, puis modifier le nombre de nœuds de calcul dans le cluster.

Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud, cliquez sur Visite guidée :

Visite guidée

Avant de commencer

Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.

Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

Accéder au sélecteur de projet

Vérifiez que la facturation est activée pour votre projet Google Cloud.

Activez l'API Dataproc

Activer l'API

Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

Accéder au sélecteur de projet

Vérifiez que la facturation est activée pour votre projet Google Cloud.

Activez l'API Dataproc

Activer l'API

Créer un cluster

Dans la console Google Cloud, accédez à la page Dataproc Clusters.

Accéder aux clusters
Cliquez sur Créer un cluster.
Dans la boîte de dialogue Créer un cluster Dataproc, sur la ligne Cluster sur Compute Engine, cliquez sur le bouton Créer.
Dans le champ Cluster Name (Nom du cluster), saisissez example-cluster.
Dans les listes Région et Zone, sélectionnez une région et une zone.

Sélectionnez une région (par exemple, us-east1 ou europe-west1) pour isoler les ressources, telles que les instances de machines virtuelles (VM), Cloud Storage et les emplacements de stockage de métadonnées utilisés par Dataproc dans la région. Pour en savoir plus, consultez les sections Régions et zones disponibles et Points de terminaison régionaux.
Pour toutes les autres options, utilisez les paramètres par défaut.
Pour créer le cluster, cliquez sur Créer.

Votre nouveau cluster s'affiche dans une liste sur la page Clusters. L'état est Provisioning (Provisionnement) jusqu'à ce que le cluster soit prêt à être utilisé, puis l'état passe à Running (En cours d'exécution). Le provisionnement du cluster peut prendre quelques minutes.

Envoyer une tâche Spark

Envoyez un job Spark qui estime une valeur de Pi:

Dans le menu de navigation Dataproc, cliquez sur Jobs (Tâches).
Sur la page Jobs (Tâches), cliquez sur Submit job (Envoyer une tâche), puis procédez comme suit:
1. Dans le champ Cluster, cliquez sur Parcourir.
2. Sur la ligne example-cluster, cliquez sur Sélectionner.
3. Dans le champ ID de tâche, utilisez le paramètre par défaut ou indiquez un ID propre à votre projet Google Cloud.
4. Dans le champ Job type (Type de tâche), sélectionnez Spark.
5. Dans le champ Main class or jar (Classe principale ou fichier JAR), saisissez org.apache.spark.examples.SparkPi.
6. Dans le champ Fichiers JAR, saisissez file:///usr/lib/spark/examples/jars/spark-examples.jar.
7. Dans le champ Arguments, saisissez 1000 pour définir le nombre de tâches.
  
  Remarque :La tâche Spark estime Pi à l'aide de la méthode de Monte-Carlo. Elle génère des points x et y sur un plan de coordonnées représentant un cercle entouré d'un carré unité. L'argument d'entrée (1000) détermine le nombre de paires x-y à générer. Plus le nombre de paires générées est élevé, plus l'estimation est précise. Cette estimation utilise des nœuds de calcul Dataproc pour charger le calcul en parallèle. Pour en savoir plus, consultez les pages Estimer pi à l'aide de la méthode de Monte-Carlo et JavaSparkPi.java sur GitHub.
8. Cliquez sur Envoyer.
  
  Votre job s'affiche sur la page Informations sur le job. L'état de la tâche indique Running (En cours d'exécution) ou Starting (Démarrage). Une fois envoyée, elle passe à l'état Succeeded (Réussie).
  
  Pour éviter de faire défiler la sortie, cliquez sur Line wrap: off (Retour à la ligne : off). Le résultat ressemble à ce qui suit :
```
Pi is roughly 3.1416759514167594
```
  Pour afficher les détails du job, cliquez sur l'onglet Configuration.

Mettre à jour un cluster

Mettez à jour votre cluster en modifiant le nombre d'instances de nœuds de calcul:

Dans le menu de navigation, cliquez sur Clusters.
Dans la liste des clusters, cliquez sur example-cluster.
Sur la page Détails du cluster, cliquez sur l'onglet Configuration.

Les paramètres de votre cluster s'affichent.
Cliquez sur Modifier.
Dans le champ Nœuds de calcul, saisissez 5.
Cliquez sur Enregistrer.

Votre cluster est maintenant mis à jour. Pour réduire le nombre de nœuds de calcul à la valeur d'origine, suivez la même procédure.

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :

Sur la page Détails du cluster de example-cluster, cliquez sur Supprimer pour supprimer le cluster.
Pour confirmer la suppression du cluster, cliquez sur Supprimer.

Étapes suivantes

Suivez ce guide de démarrage rapide en utilisant d'autres outils :
- Utiliser APIs Explorer
- Utiliser la Google Cloud CLI
Découvrez comment définir des règles de pare-feu robustes lorsque vous créez un projet.
Découvrez comment écrire et exécuter une tâche Spark Scala.