Configurer Cloud Dataflow dans Eclipse

Cette page explique comment créer un projet Dataflow et exécuter un exemple de pipeline à partir d'Eclipse.

Le plug-in Dataflow pour Eclipse ne fonctionne qu'avec la distribution des versions 2.0.0 à 2.5.0 du SDK Dataflow. Il n'est pas compatible avec la distribution du SDK Apache Beam.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Assurez-vous que la facturation est activée pour votre projet Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.

  4. Activer les API Cloud Dataflow, Compute Engine, Stackdriver Logging, Cloud Storage, Cloud Storage JSON, BigQuery, Cloud Pub/Sub, Cloud Datastore et Cloud Resource Manager.

    Activer les API

  5. Installez et initialisez le SDK Cloud.
  6. Assurez-vous d'avoir installé la version 4.7 ou ultérieure de l'IDE Eclipse.
  7. Assurez-vous d'avoir installé la version 1.8 ou ultérieure du JDK (Java Development Kit).
  8. Assurez-vous d'avoir installé la dernière version du plug-in Cloud Tools for Eclipse.
    1. Si ce n'est pas déjà fait, suivez le guide de démarrage avec Cloud Tools for Eclipse pour installer le plug-in.
    2. Vous pouvez également cliquer sur Aide > Rechercher les mises à jour pour obtenir la dernière version du plug-in.

Créer un projet Dataflow dans Eclipse

Pour créer un projet, utilisez l'assistant New Project (Nouveau projet) afin de générer un modèle d'application que vous pouvez utiliser comme point de départ pour votre propre application.

Si vous ne possédez pas d'application, vous pouvez exécuter l'exemple d'application WordCount pour effectuer le reste de cette procédure.

  1. Sélectionnez File > New > Project (Fichier > Nouveau > Projet).
  2. Dans le répertoire Google Cloud Platform, sélectionnez Cloud Dataflow Java Project (Projet Java Cloud Dataflow).
  3. Assistant permettant de sélectionner le type de projet que vous créez. Vous pouvez accéder aux répertoires "General", "Eclipse Modeling Framework", "EJB", "Java" et "Java EE". Vous pouvez également accéder au Google Cloud, qui est développé et affiche les options permettant de créer un projet Java dans l'environnement flexible App Engine, un projet Java dans l'environnement standard App Engine ou encore un projet Java Dataflow.
  4. Saisissez un ID dans le champ Group ID (ID du groupe).
  5. Saisissez un ID dans le champ Artifact ID (ID de l'artefact).
  6. Sélectionnez un modèle dans Project Template (Modèle de projet). Pour l'exemple WordCount, sélectionnez Example pipelines (Exemples de pipelines).
  7. Sélectionnez une version dans Project Dataflow Version (Version Dataflow du projet). Pour l'exemple WordCount, sélectionnez 2.5.0.
  8. Saisissez un nom de Package. Pour l'exemple WordCount, saisissez com.google.cloud.dataflow.examples.
  9. Assistant de création de projet Dataflow. Fournit des champs pour saisir l'ID du groupe, l'ID de l'artefact, le modèle de projet, la version de Cloud Dataflow, le nom du package, l'emplacement de l'espace de travail et le nom du modèle. Des boutons sont disponibles pour revenir en arrière, passer à l'élément suivant, annuler l'opération et valider l'opération.
  10. Cliquez sur Suivant.

Configurer les options d'exécution

La boîte de dialogue Set Default Cloud Dataflow Run Options (Définir les options d'exécution par défaut Cloud Tools for Eclipse) devrait s'afficher.

  1. Sélectionnez le compte associé à votre projet Google Cloud ou ajoutez-en un. Pour ajouter un compte, procédez comme suit :
    1. Sélectionnez Add a new account… (Ajouter un compte…) dans le menu déroulant Account (Compte).
    2. Une nouvelle fenêtre de navigateur s'ouvre pour vous permettre de terminer le processus de connexion.
  2. Saisissez votre ID de projet Google Cloud Platform.
  3. Sélectionnez un emplacement de préproduction Cloud Storage ou créez-en un. Pour créer un emplacement de préproduction, procédez comme suit :
    1. Saisissez un nom unique dans le champ Cloud Storage Staging Location (Emplacement de préproduction Cloud Storage). Celui-ci doit inclure le nom du bucket et un dossier. Les objets sont créés dans le dossier spécifié au sein de votre bucket Cloud Storage. N'incluez aucune information sensible dans le nom des buckets, car leur espace de noms est global et visible par tous.
    2. Cliquez sur Create bucket (Créer un bucket).
    3. Boîte de dialogue permettant de saisir le compte Google Cloud, l'ID Google Cloud Platform et l'emplacement de préproduction Cloud Storage. Bouton "Create" (Créer) permettant de créer un emplacement de préproduction. Des boutons sont disponibles pour revenir en arrière, passer à la fenêtre suivante, annuler l'opération ou valider l'opération.
  4. Cliquez sur Browse (Parcourir) pour accéder à votre clé de compte de service.
  5. Cliquez sur Terminer.

Exécuter l'exemple de pipeline WordCount sur le service Dataflow

Une fois votre projet Cloud Tools for Eclipse créé, vous pouvez générer des pipelines qui s'exécutent sur le service Dataflow. Vous pouvez ainsi exécuter l'exemple de pipeline WordCount.

  1. Sélectionnez Run > Run Configurations (Exécuter > Exécuter des configurations).
  2. Dans le menu de gauche, sélectionnez Dataflow Pipeline (Pipeline Dataflow).
  3. Cliquez sur New Launch Configuration (Nouvelle configuration de lancement).
  4. Boîte de dialogue permettant de sélectionner la configuration d'exécution du pipeline Dataflow. Les options disponibles sont Apache Tomcat, App Engine Local Server (Serveur local App Engine), Dataflow Pipeline (Pipeline Dataflow), Eclipse Application (Application Eclipse), Eclipse Data Tools (Outils de données Eclipse). Le pointeur de la souris passe sur le bouton "New Launch Configuration" (Nouvelle configuration de lancement) et l'info-bulle associée s'affiche.
  5. Cliquez sur l'onglet Main (Général).
  6. Cliquez sur Parcourir pour sélectionner votre projet Dataflow.
  7. Cliquez sur Search… (Rechercher…) et sélectionnez WordCount dans le champ Main Type (Type principal).
  8. Cliquez sur l'onglet Pipeline Arguments (Arguments de pipeline).
  9. Sélectionnez l'exécuteur DataflowRunner.
  10. Cliquez sur l'onglet Arguments.
  11. Dans le champ Program arguments (Arguments de programme), définissez la sortie sur votre emplacement de préproduction Cloud Storage. L'emplacement de préproduction doit être un dossier. Vous ne pouvez pas préproduire des tâches de pipeline à partir du répertoire racine d'un bucket.
  12. Boîte de dialogue dans laquelle l'onglet "Arguments" est sélectionné. Dans le champ "Program arguments" (Arguments de programme), l'option "--output" est définie sur l'emplacement de préproduction accessible en écriture.
  13. Cliquez sur Run (Exécuter).
  14. Une fois la tâche terminée, la ligne suivante devrait s'afficher, parmi d'autres résultats, dans la console Eclipse :
    Submitted job: <job_id>

Nettoyer

Pour éviter que les ressources utilisées dans ce guide de démarrage rapide soient facturées sur votre compte Google Cloud, procédez comme suit :

  1. Ouvrez le navigateur Cloud Storage dans Google Cloud Console.
  2. Cochez la case à côté du bucket que vous avez créé.
  3. Cliquez sur SUPPRIMER.
  4. Cliquez sur Supprimer pour confirmer que vous souhaitez supprimer définitivement le bucket et son contenu.

Étapes suivantes