Exécuter un exemple de modèle

Le modèle WordCount est un pipeline par lots qui lit du texte de Cloud Storage, segmente les lignes en mots individuels et compte le nombre de fois où chacun de ces mots apparaît. Pour plus d'informations sur WordCount, consultez la section Exemple de pipeline WordCount.

Si le bucket Cloud Storage ne se trouve pas dans votre périmètre de service, créez une règle de sortie qui autorise l'accès au bucket.

Paramètres de modèle

Paramètres Description
inputFile Chemin d'accès au fichier d'entrée Cloud Storage.
outputFile Chemin d'accès et préfixe du fichier de sortie Cloud Storage.

Exécuter le modèle WordCount

Console

  1. Accédez à la page Dataflow Créer un job à partir d'un modèle.
  2. Accéder à la page Créer un job à partir d'un modèle
  3. Dans le champ Nom du job, saisissez un nom de job unique.
  4. Facultatif : pour Point de terminaison régional, sélectionnez une valeur dans le menu déroulant. La région par défaut est us-central1.

    Pour obtenir la liste des régions dans lesquelles vous pouvez exécuter un job Dataflow, consultez la page Emplacements Dataflow.

  5. Dans le menu déroulant Modèle Dataflow, sélectionnez the WordCount template.
  6. Dans les champs fournis, saisissez vos valeurs de paramètres.
  7. Cliquez sur Run Job (Exécuter la tâche).

gcloud

Dans le shell ou le terminal, exécutez le modèle :

gcloud dataflow jobs run JOB_NAME \\
    --gcs-location gs://dataflow-templates/latest/Word_Count \\
    --region REGION_NAME \\
    --parameters \\
    inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\\
    output=gs://BUCKET_NAME/output/my_output

Remplacez les éléments suivants :

  • JOB_NAME : nom de job unique de votre choix

  • REGION_NAME : région dans laquelle vous souhaitez déployer votre job Dataflow (par exemple, us-central1)

  • BUCKET_NAME : nom de votre bucket Cloud Storage

API

Pour exécuter le modèle à l'aide de l'API REST, envoyez une requête HTTP POST. Pour en savoir plus sur l'API, ses autorisations et leurs champs d'application, consultez la section projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}

Remplacez les éléments suivants :

  • PROJECT_ID : ID du projet Google Cloud dans lequel vous souhaitez exécuter le job Dataflow
  • JOB_NAME : nom de job unique de votre choix

  • LOCATION : région dans laquelle vous souhaitez déployer votre job Dataflow (par exemple, us-central1)

  • BUCKET_NAME : nom de votre bucket Cloud Storage