Utiliser l'interface de ligne de commande Cloud Dataflow

Lorsque vous exécutez votre pipeline à l'aide du service géré Cloud Dataflow, vous pouvez obtenir des informations sur votre tâche Cloud Dataflow grâce à l'interface de ligne de commande Cloud Dataflow. L'interface de ligne de commande Cloud Dataflow fait partie de l'outil de ligne de commande gcloud dans le SDK Cloud.

REMARQUE : Si vous préférez afficher et interagir avec vos tâches Cloud Dataflow à l'aide de l'interface utilisateur Web, utilisez l'interface de surveillance de Cloud Dataflow.

Installer le composant de ligne de commande Cloud Dataflow

Pour utiliser l'interface de ligne de commande Cloud Dataflow, vous devez d'abord installer les composants bêta dans l'outil gcloud. Dans la fenêtre de votre interface système ou de votre terminal, saisissez :

  gcloud components update beta

Saisissez y lorsque vous êtes invité à continuer.

Exécuter les commandes disponibles

Vous interagissez avec l'interface de ligne de commande Cloud Dataflow en exécutant les commandes disponibles. Pour exécuter une commande, entrez la commande suivante dans votre interface système ou votre terminal :

  gcloud beta dataflow

L'interface de ligne de commande Cloud Dataflow comporte trois sous-commandes principales : jobs, logs et metrics.

Commandes des tâches

Le groupe de sous-commandes jobs vous permet d'afficher et d'interagir avec les tâches Cloud Dataflow de votre projet GCP. Vous pouvez utiliser ces commandes pour afficher une liste de vos tâches, annuler une tâche, afficher une description de tâche spécifique, etc. Par exemple, pour afficher la liste de toutes vos tâches Cloud Dataflow, entrez la commande suivante dans votre interface système ou votre terminal :

gcloud dataflow jobs list

L'outil gcloud renvoie une liste de vos tâches en cours, comme suit :

  ID                                        NAME                                    TYPE   CREATION_TIME        STATE   REGION
  2015-06-03_16_39_22-4020553808241078833   wordcount-janedoe-0603233849            Batch  2015-06-03 16:39:22  Done    us-central1
  2015-06-03_16_38_28-4363652261786938862   wordcount-johndoe-0603233820            Batch  2015-06-03 16:38:28  Done    us-central1
  2015-05-21_16_24_11-17823098268333533078  bigquerytornadoes-johndoe-0521232402    Batch  2015-05-21 16:24:11  Done    europe-west1
  2015-05-21_13_38_06-16409850040969261121  bigquerytornadoes-johndoe-0521203801    Batch  2015-05-21 13:38:06  Done    us-central1
  2015-05-21_13_17_18-18349574013243942260  bigquerytornadoes-johndoe-0521201710    Batch  2015-05-21 13:17:18  Done    europe-west1
  2015-05-21_12_49_37-9791290545307959963   wordcount-johndoe-0521194928            Batch  2015-05-21 12:49:37  Done    us-central1
  2015-05-20_15_54_51-15905022415025455887  wordcount-johndoe-0520225444            Batch  2015-05-20 15:54:51  Failed  us-central1
  2015-05-20_15_47_02-14774624590029708464  wordcount-johndoe-0520224637            Batch  2015-05-20 15:47:02  Done    us-central1

À l'aide de l'ID de tâche, vous pouvez exécuter la commande describe pour afficher plus d'informations sur une tâche.

export JOBID=<X>
gcloud beta dataflow jobs describe $JOBID

Par exemple, si vous exécutez la commande pour l'ID de tâche 2015-02-09_11_39_40-15635991037808002875, l'outil gcloud renvoie les informations suivantes :

createTime: '2015-02-09T19:39:41.140Z'
currentState: JOB_STATE_DONE
currentStateTime: '2015-02-09T19:56:39.510Z'
id: 2015-02-09_11_39_40-15635991037808002875
name: tfidf-bchambers-0209193926
projectId: google.com:clouddfe
type: JOB_TYPE_BATCH

Vous pouvez exécuter la commande avec l'option --format=json pour afficher le résultat au format JSON.

gcloud --format=json beta dataflow jobs describe $JOBID

L'outil gcloud renvoie les informations formatées suivantes :

{
  "createTime": "2015-02-09T19:39:41.140Z",
  "currentState": "JOB_STATE_DONE",
  "currentStateTime": "2015-02-09T19:56:39.510Z",
  "id": "2015-02-09_11_39_40-15635991037808002875",
  "name": "tfidf-bchambers-0209193926",
  "projectId": "google.com:clouddfe",
  "type": "JOB_TYPE_BATCH"
}

Pour obtenir la liste complète des commandes jobs, consultez la section portant sur la commande gcloud beta dataflow jobs dans la documentation du SDK Cloud.

Commandes des journaux

Les commandes logs affichent les entrées de journal pour les tâches exécutées sur le service Cloud Dataflow.

Par exemple, vous pouvez utiliser la commande list pour imprimer les journaux contenant des informations sur ce qu'accomplit la tâche.

export JOBID=<X>
gcloud beta dataflow logs list $JOBID

Pour l'ID de tâche 2015-02-09_11_39_40-15635991037808002875, l'outil gcloud renvoie :

Listed 0 items.

Dans cet exemple, aucun fichier journal n'a été affiché avec la gravité par défaut (Warning). Vous pouvez inclure les journaux BASIC en exécutant la commande list avec l'option --importance=detailed.

gcloud beta dataflow logs list $JOBID --importance=detailed

L'outil gcloud imprime les fichiers journaux suivants :

d 2016-08-29T09:33:28 2015-02-09_11_39_40-15635991037808002875_00000156d72606f7 (39b2a31f5e883423): Starting worker pool synchronously
d 2016-08-29T09:33:28 2015-02-09_11_39_40-15635991037808002875_00000156d7260871 (39b2a31f5e883ce9): Worker pool is running
d 2016-08-29T09:33:28 2015-02-09_11_39_40-15635991037808002875_00000156d7260874 (39b2a31f5e883b77): Executing operation Count.PerElement/Sum.PerKey/GroupByKey/GroupByKeyOnly…
...

Pour obtenir la liste complète des commandes logs, consultez la section portant sur la commande gcloud beta dataflow logs dans la documentation du SDK Cloud.

Commandes des métriques

Les commandes metrics permettent d'afficher les métriques d'une tâche Cloud Dataflow donnée.

Remarque : Les noms de commande metric sont sujets à modification et certaines métriques peuvent être supprimées.

Vous pouvez utiliser la commande list pour obtenir des informations sur les étapes de votre tâche.

gcloud beta dataflow metrics list $JOBID

Pour cette commande, l'outil gcloud renvoie :

---
name:
  name: s09-s14-start-msecs
  origin: dataflow/v1b3
scalar: 137
updateTime: '2016-08-29T16:35:50.007Z'
---
name:
  context:
    output_user_name: WordCount.CountWords/Count.PerElement/Init-out0
  name: ElementCount
  origin: dataflow/v1b3
scalar: 26181
updateTime: '2016-08-29T16:35:50.007Z'
---
name:
  context:
    step: s2
  name: emptyLines
  origin: user
scalar: 1080
updateTime: '2016-08-29T16:35:50.007Z'
...

Vous pouvez utiliser la commande gcloud beta dataflow metrics list pour obtenir des métriques temporaires pendant l'exécution de votre tâche (ou peu de temps après son achèvement). Pour afficher les métriques provisoires, exécutez la commande avec l'indicateur --tentative. Une métrique marquée comme tentative est mise à jour fréquemment, car les instances de nœuds de calcul traitent les données de votre pipeline. Leur quantité peut diminuer si un nœud de calcul rencontre une erreur. Les métriques tentative deviennent des valeurs committed lorsqu'un nœud de calcul termine son travail et valide les résultats.

Pour obtenir la liste complète des commandes metrics, consultez la section portant sur la commande gcloud beta dataflow metrics dans la documentation du SDK Cloud.

Utiliser des commandes avec des points de terminaison régionaux

L'interface de ligne de commande Cloud Dataflow est compatible avec les points de terminaison régionaux depuis la version 176 de l'outil gcloud. Utilisez l'option --region avec n'importe quelle commande pour spécifier le point de terminaison régional qui gère votre tâche.

Par exemple, gcloud dataflow jobs list répertorie les tâches de toutes les régions, mais gcloud dataflow jobs list --region=europe-west1 ne répertorie que les tâches gérées depuis europe-west1.

Remarque : L'option --region est requise pour obtenir des informations sur la tâche à partir d'un point de terminaison par défaut. Si vous ne spécifiez pas de point de terminaison régional, us-central1 sera utilisé comme point de terminaison par défaut.

Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…

Besoin d'aide ? Consultez notre page d'assistance.