Premiers pas avec les modèles fournis par Google

Google fournit un ensemble de modèles Cloud Dataflow open source. Des informations générales sur les modèles sont disponibles dans la page de Présentation. Pour vous lancer, utilisez le modèle WordCount décrit dans la section ci-dessous. Découvrez également d'autres modèles fournis par Google :

Modèles de streaming – Modèles destinés au traitement de données en continu :

Modèles par lots – Modèles destinés à traiter des données de manière groupée :

Modèles d'utilitaires :

WordCount

{% dynamic setvar launch_name %} the WordCount template {% dynamic endsetvar %}{% dynamic endsetvar %}Word_Count{% dynamic setvar gcs_template_name %}

Le modèle WordCount est un pipeline par lots qui lit du texte de Cloud Storage, segmente les lignes en mots individuels et compte le nombre de fois où chacun de ces mots apparaît. Pour plus d'informations sur WordCount, consultez la section Exemple de pipeline WordCount.

Paramètres de modèle

Paramètre Description
inputFile Chemin du fichier d'entrée Cloud Storage.
output Chemin et préfixe du fichier de sortie Cloud Storage.

Exécuter le modèle WordCount

Console

Exécuter à partir de la console Google Cloud Platform
  1. Accédez à la page Cloud Dataflow dans la console GCP.
  2. Accéder à la page Cloud Dataflow
  3. Cliquez sur CREATE JOB FROM TEMPLATE (CRÉER UNE TÂCHE À PARTIR D'UN MODÈLE).
  4. Bouton "Créer une tâche à partir d'un modèle" dans la console Cloud Platform
  5. Sélectionnez {% dynamic print setvar.launch_name %} dans le menu déroulant du modèle Cloud Dataflow.
  6. Entrez un nom de tâche dans le champ Nom de la tâche. {% dynamic if setvar.spanner_import_or_export == "export" or setvar.spanner_import_or_export == "import" %}
    • Votre nom de tâche doit correspondre à l'expression régulière [a-z]([-a-z0-9]{0,38}[a-z0-9])? pour être valide.
    • Le nom de la tâche doit être conforme au format cloud-spanner-{% dynamic print setvar.spanner_import_or_export %}-[YOUR_INSTANCE_ID]-[YOUR_DATABASE_ID] pour s'afficher dans la partie Cloud Spanner de la console GCP.
    {% dynamic else %} Le nom de votre tâche doit correspondre à l'expression régulière [a-z]([-a-z0-9]{0,38}[a-z0-9])? pour être valide.{% dynamic endif %}
  7. Entrez vos valeurs de paramètre dans les champs de paramètre fournis.
  8. Cliquez sur Exécuter la tâche.

GCLOUD

Exécuter à partir de l'outil de ligne de commande gcloud

Remarque : Pour utiliser l'outil de ligne de commande gcloud afin d'exécuter des modèles, vous devez disposer du SDK Cloud version 138.0.0 ou ultérieure.

Lors de l'exécution de ce modèle, vous aurez besoin du chemin d'accès de Cloud Storage au modèle :

gs://dataflow-templates/latest/{% dynamic print setvar.gcs_template_name %}

Vous devez remplacer les valeurs suivantes dans l'exemple ci-dessous :

  • Remplacez YOUR_PROJECT_ID par votre ID de projet.
  • Remplacez JOB_NAME par le nom de tâche de votre choix. Le nom de la tâche doit correspondre à l'expression régulière [a-z]([-a-z0-9]{0,38}[a-z0-9])? pour être valide.
  • Remplacez YOUR_BUCKET_NAME par le nom de votre bucket Cloud Storage.
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/{% dynamic print setvar.gcs_template_name %} \
    --parameters \
inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\
output=gs://YOUR_BUCKET_NAME/output/my_output

API

Exécuter à partir de l'API REST

Lors de l'exécution de ce modèle, vous aurez besoin du chemin d'accès de Cloud Storage au modèle :

gs://dataflow-templates/latest/{% dynamic print setvar.gcs_template_name %}

Pour exécuter ce modèle avec une requête API REST, envoyez une requête HTTP POST avec votre ID de projet. Cette requête nécessite une autorisation.

Vous devez remplacer les valeurs suivantes dans l'exemple ci-dessous :

  • Remplacez YOUR_PROJECT_ID par votre ID de projet.
  • Remplacez JOB_NAME par le nom de tâche de votre choix. Le nom de la tâche doit correspondre à l'expression régulière [a-z]([-a-z0-9]{0,38}[a-z0-9])? pour être valide.
  • Remplacez YOUR_BUCKET_NAME par le nom de votre bucket Cloud Storage.
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/{% dynamic print setvar.gcs_template_name %}
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://YOUR_BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}
{% dynamic setvar spanner_import_or_export %}{% dynamic endsetvar %} {% dynamic setvar spanner_api_or_gcloud %}{% dynamic endsetvar %}
Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…

Besoin d'aide ? Consultez notre page d'assistance.