Guide de démarrage rapide avec Java et Eclipse

Cette page explique comment créer un projet Cloud Dataflow et exécuter un exemple de pipeline à partir d'Eclipse.

Le plug-in Cloud Tools for Eclipse ne fonctionne qu'avec la distribution des versions 2.0.0 à 2.5.0 du SDK Cloud Dataflow. Il n'est pas compatible avec la distribution du SDK Apache Beam.

Consultez les notes de version du plug-in Cloud Tools for Eclipse pour obtenir des informations concernant les fonctionnalités nouvelles ou mises à jour, les corrections de bugs, les problèmes connus et les fonctionnalités obsolètes.

Avant de commencer

  1. Connectez-vous à votre compte Google.

    Si vous n'en possédez pas déjà un, vous devez en créer un.

  2. Sélectionnez ou créez un projet Google Cloud Platform.

    Accéder à la page "Gérer les ressources"

  3. Assurez-vous que la facturation est activée pour votre projet Google Cloud Platform.

    Découvrir comment activer la facturation

  4. Activez Cloud Dataflow, Compute Engine, Stackdriver Logging, Google Cloud Storage, JSON Google Cloud Storage, BigQuery, Cloud Pub/Sub, Cloud Datastore et Cloud Resource Managerles API requises.

    Activer les API.

  5. Installez et initialisez le SDK Cloud.
  6. Assurez-vous d'avoir installé la version 4.7 ou ultérieure de l'IDE Eclipse.
  7. Assurez-vous d'avoir installé la version 1.8 ou ultérieure du JDK (Java Development Kit).
  8. Assurez-vous d'avoir installé la dernière version du plug-in Cloud Dataflow.
    1. Si ce n'est pas déjà fait, suivez le guide de démarrage rapide avec Cloud Dataflow pour installer le plug-in.
    2. Vous pouvez également cliquer sur Aide > Rechercher les mises à jour pour obtenir la dernière version du plug-in.

Créer un projet Cloud Dataflow dans Eclipse

Pour créer un projet, utilisez l'assistant New project (Nouveau projet) pour générer un modèle d'application servant de base à votre propre application.

Si vous ne possédez pas d'application, vous pouvez exécuter l'exemple d'application WordCount pour effectuer le reste de cette procédure.

  1. Sélectionnez File > New > Project (Fichier > Nouveau > Projet).
  2. Dans le répertoire Google Cloud Platform, sélectionnez Cloud Dataflow Java Project (Projet Java Cloud Dataflow).
  3. Assistant permettant de sélectionner le type de projet que vous créez.Vous pouvez accéder aux répertoires "General", "Eclipse Modeling Framework", "EJB", "Java" et "Java EE". Vous pouvez également accéder au répertoire "Google Cloud Platform", qui est développé et affiche les options permettant de créer un projet Java dans l'environnement flexible App Engine, un projet Java dans l'environnement standard App Engine, ou encore un projet Java Cloud Dataflow.
  4. Saisissez un ID dans le champ Group ID (ID du groupe).
  5. Saisissez un ID dans le champ Artifact ID (ID de l'artefact).
  6. Sélectionnez un modèle dans Project Template (Modèle de projet). Pour l'exemple WordCount, sélectionnez Example pipelines (Exemples de pipelines).
  7. Sélectionnez une version dans Project Dataflow Version (Version Dataflow du projet). Pour l'exemple WordCount, sélectionnez 2.5.0.
  8. Saisissez un nom de Package. Pour l'exemple WordCount, saisissez com.google.cloud.dataflow.examples.
  9. Assistant permettant de créer un projet Dataflow.Des champs s'affichent permettant de saisir l'ID du groupe, l'ID de l'artefact, le modèle de projet, la version Dataflow, le nom du package, l'emplacement de l'espace de travail et le nom du modèle.Des boutons sont disponibles pour revenir en arrière, passer à l'élément suivant, annuler l'opération et valider l'opération.
  10. Cliquez sur Next (Suivant).

Configurer les options d'exécution

La boîte de dialogue Set Default Cloud Dataflow Run Options (Définir les options d'exécution par défaut Cloud Dataflow) devrait s'afficher.

  1. Sélectionnez le compte associé à votre projet Google Cloud Platform ou ajoutez un compte. Pour ajouter un compte, procédez comme suit :
    1. Sélectionnez Add a new account… (Ajouter un compte…) dans le menu déroulant Account (Compte).
    2. Une nouvelle fenêtre de navigateur s'ouvre pour vous permettre de terminer le processus de connexion.
  2. Saisissez un ID dans le champ Cloud Platform Project ID (ID de projet Cloud Platform).
  3. Sélectionnez un emplacement pour Cloud Storage Staging Location (Emplacement de préproduction Cloud Storage) ou créez-en un. Pour créer un emplacement de préproduction, procédez comme suit :
    1. Saisissez un nom unique dans le champ Cloud Storage Staging Location (Emplacement de préproduction Cloud Storage). Celui-ci doit inclure le nom du bucket et un dossier. Les objets sont créés dans le dossier spécifié au sein de votre bucket Cloud Storage. N'incluez aucune information sensible dans le nom des buckets, car leur espace de noms est global et visible par tous.
    2. Cliquez sur Create bucket (Créer un bucket).
    3. Boîte de dialogue permettant de saisir un compte GCP, un ID Cloud Platform et un emplacement de préproduction Cloud Storage.Le bouton "Create" (Créer) vous permet de créer un emplacement de préproduction. Des boutons sont disponibles pour revenir en arrière, passer à la fenêtre suivante, annuler l'opération ou valider l'opération.
  4. Cliquez sur Browse (Parcourir) pour accéder à votre clé de compte de service.
  5. Cliquez sur Finish (Terminer).

Exécuter l'exemple de pipeline WordCount sur le service Cloud Dataflow

Une fois votre projet Cloud Dataflow créé, vous pouvez générer des pipelines qui s'exécutent sur le service Cloud Dataflow. Vous pouvez ainsi exécuter l'exemple de pipeline WordCount.

  1. Sélectionnez Run > Run Configurations (Exécuter > Exécuter des configurations).
  2. Dans le menu de gauche, sélectionnez Dataflow Pipeline (Pipeline Dataflow).
  3. Cliquez sur New Launch Configuration (Nouvelle configuration de lancement).
  4. Boîte de dialogue permettant de sélectionner la configuration d'exécution du pipeline Dataflow.Les options disponibles sont Apache Tomcat, App Engine Local Server (Serveur local App Engine), Dataflow Pipeline (Pipeline Dataflow), Eclipse Application (Application Eclipse), Eclipse Data Tools (Outils de données Eclipse).Le pointeur de la souris passe sur le bouton "New Launch Configuration" (Nouvelle configuration de lancement) et l'info-bulle associée s'affiche.
  5. Cliquez sur l'onglet Main (Général).
  6. Cliquez sur Browse (Parcourir) pour sélectionner votre projet Cloud Dataflow.
  7. Cliquez sur Search… (Rechercher…) et sélectionnez WordCount dans le champ Main Type (Type principal).
  8. Cliquez sur l'onglet Pipeline Arguments (Arguments de pipeline).
  9. Sélectionnez l'exécuteur DataflowRunner.
  10. Cliquez sur l'onglet Arguments.
  11. Dans le champ Program arguments (Arguments de programme), définissez la sortie sur votre emplacement de préproduction Cloud Storage. L'emplacement de préproduction doit être un dossier. Vous ne pouvez pas préproduire des tâches de pipeline à partir du répertoire racine d'un bucket.
  12. Boîte de dialogue dans laquelle l'onglet "Arguments" est sélectionné.Dans le champ "Program arguments" (Arguments de programme), l'option "--output" est définie sur l'emplacement de préproduction accessible en écriture.
  13. Cliquez sur Exécuter (Run).
  14. Une fois la tâche terminée, la ligne suivante devrait s'afficher, parmi d'autres résultats, dans la console Eclipse :
    Submitted job: <job_id>

Effectuer un nettoyage

Afin d'éviter que des frais ne soient facturés sur votre compte GCP pour les ressources utilisées dans ce guide de démarrage rapide, procédez comme suit :

  1. Ouvrez le navigateur Cloud Storage dans la console Google Cloud Platform.
  2. Cochez la case à côté du bucket que vous avez créé.
  3. Cliquez sur SUPPRIMER.
  4. Cliquez sur Supprimer pour confirmer que vous souhaitez supprimer définitivement le bucket et son contenu.

Étapes suivantes

Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…

Besoin d'aide ? Consultez notre page d'assistance.