Premiers pas avec les modèles fournis par Google

Google fournit un ensemble de modèles Dataflow Open Source. Des informations générales sur les modèles sont disponibles sur la page Présentation. Pour commencer, utilisez le modèle WordCount. Découvrez également d'autres modèles fournis par Google :

Modèles de streaming – Modèles destinés au traitement de données en continu :

Modèles par lots – Modèles destinés à traiter des données de manière groupée :

Modèles d'utilitaires :

WordCount

Le modèle WordCount est un pipeline par lots qui lit du texte de Cloud Storage, segmente les lignes en mots individuels et compte le nombre de fois où chacun de ces mots apparaît. Pour plus d'informations sur WordCount, consultez la section Exemple de pipeline WordCount.

Paramètres de modèle

Paramètres Description
inputFile Chemin d'accès au fichier d'entrée Cloud Storage.
output Chemin d'accès et préfixe du fichier de sortie Cloud Storage.

Exécuter le modèle WordCount

Console

Exécution à l'aide de Google Cloud Console.
  1. Accédez à la page Dataflow dans Cloud Console.
  2. Accéder à la page Dataflow
  3. Cliquez sur Create job from template(Créer une tâche à partir d'un modèle).
  4. Bouton "Créer une tâche à partir d'un modèle" dans Cloud Console
  5. Sélectionnez the WordCount template dans le menu déroulant Modèle Dataflow.
  6. Saisissez un nom de tâche dans le champ Job Name (Nom de la tâche).
  7. Saisissez vos valeurs de paramètres dans les champs fournis.
  8. Cliquez sur Run Job (Exécuter la tâche).

gcloud

Exécution à l'aide de l'outil de ligne de commande gcloud.

Lors de l'exécution de ce modèle, vous avez besoin du chemin d'accès Cloud Storage au modèle :

gs://dataflow-templates/latest/Word_Count

Exécutez la commande suivante :

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --parameters \
    inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\
    output=gs://BUCKET_NAME/output/my_output

Remplacez l'élément suivant :

  • JOB_NAME : nom de la tâche de votre choix
  • BUCKET_NAME : nom du bucket Cloud Storage.

API

Exécution à l'aide de l'API REST.

Lors de l'exécution de ce modèle, vous avez besoin du chemin d'accès Cloud Storage au modèle :

gs://dataflow-templates/latest/Word_Count

Pour exécuter ce modèle avec une requête API REST, envoyez une requête HTTP POST avec votre ID de projet. Cette requête nécessite une autorisation.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}

Remplacez l'élément suivant :

  • PROJECT_ID : ID de votre projet
  • JOB_NAME : nom de la tâche de votre choix
  • BUCKET_NAME : nom du bucket Cloud Storage.