Premiers pas avec les modèles fournis par Google

Google fournit un ensemble de modèles Dataflow Open Source. Des informations générales sur les modèles sont disponibles sur la page Présentation. Pour commencer, utilisez le modèle WordCount décrit dans la section ci-dessous. Découvrez également d'autres modèles fournis par Google :

Modèles de streaming – Modèles destinés au traitement de données en continu :

Modèles par lots – Modèles destinés à traiter des données de manière groupée :

Modèles d'utilitaires :

WordCount

Le modèle WordCount est un pipeline par lots qui lit du texte de Cloud Storage, segmente les lignes en mots individuels et compte le nombre de fois où chacun de ces mots apparaît. Pour plus d'informations sur WordCount, consultez la section Exemple de pipeline WordCount.

Paramètres de modèle

Paramètres Description
inputFile Chemin du fichier d'entrée Cloud Storage.
output Chemin et préfixe du fichier de sortie Cloud Storage.

Exécuter le modèle WordCount

Console

Exécuter le modèle depuis Google Cloud Console
  1. Accédez à la page Dataflow dans Cloud Console.
  2. Accéder à la page Dataflow
  3. Cliquez sur Create job from template (Créer une tâche à partir d'un modèle).
  4. Bouton
  5. Sélectionnez the WordCount template dans le menu déroulant Modèle Dataflow.
  6. Saisissez un nom de tâche dans le champ Job Name (Nom de la tâche).Le nom de la tâche doit correspondre à l'expression régulière [a-z]([-a-z0-9]{0,38}[a-z0-9])? pour être valide.
  7. Saisissez vos valeurs de paramètres dans les champs fournis.
  8. Cliquez sur Run Job (Exécuter la tâche).

GCLOUD

Exécuter à partir de l'outil de ligne de commande gcloud

Remarque : Pour exécuter des modèles à l'aide de l'outil de ligne de commande gcloud, vous devez disposer du SDK Cloud version 138.0.0 ou ultérieure.

Lors de l'exécution de ce modèle, vous aurez besoin du chemin d'accès Cloud Storage au modèle :

gs://dataflow-templates/latest/Word_Count

Vous devez remplacer les valeurs suivantes dans l'exemple ci-dessous :

  • Remplacez JOB_NAME par le nom de tâche de votre choix. Le nom de tâche doit correspondre à l'expression régulière [a-z]([-a-z0-9]{0,38}[a-z0-9])? pour être valide.
  • Remplacez YOUR_BUCKET_NAME par le nom de votre bucket Cloud Storage.
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --parameters \
inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\
output=gs://YOUR_BUCKET_NAME/output/my_output

API

Exécution à partir de l'API REST

Lors de l'exécution de ce modèle, vous aurez besoin du chemin d'accès Cloud Storage au modèle :

gs://dataflow-templates/latest/Word_Count

Pour exécuter ce modèle avec une requête API REST, envoyez une requête HTTP POST avec l'ID de votre projet. Cette requête nécessite une autorisation.

Vous devez remplacer les valeurs suivantes dans l'exemple ci-dessous :

  • Remplacez YOUR_PROJECT_ID par l'ID du projet.
  • Remplacez JOB_NAME par le nom de tâche de votre choix. Le nom de tâche doit correspondre à l'expression régulière [a-z]([-a-z0-9]{0,38}[a-z0-9])? pour être valide.
  • Remplacez YOUR_BUCKET_NAME par le nom de votre bucket Cloud Storage.
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://YOUR_BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}