Lorsque vous exécutez votre pipeline à l'aide du service géré Dataflow, vous pouvez obtenir des informations sur votre tâche Dataflow à l'aide de l'interface de ligne de commande Dataflow. Celle-ci fait partie de l'outil de ligne de commande gcloud
du SDK Cloud.
REMARQUE : Si vous préférez afficher vos tâches Dataflow et interagir avec elles à l'aide de l'interface utilisateur Web, servez-vous de l'interface de surveillance Dataflow.
Installer le composant de ligne de commande Cloud Dataflow
Pour utiliser l'interface de ligne de commande Dataflow, vous devez d'abord installer l'outil gcloud
.
Exécuter les commandes disponibles
Vous interagissez avec l'interface de ligne de commande Dataflow en exécutant les commandes disponibles. Pour exécuter une commande, entrez la commande suivante dans votre interface système ou votre terminal :
gcloud dataflow
L'interface de ligne de commande Dataflow comporte trois sous-commandes principales : jobs
, logs
, et metrics
.
Commandes des tâches
Le groupe de sous-commandes jobs
vous permet d'afficher les tâches Dataflow et d'interagir avec elles dans votre projet Google Cloud. Vous pouvez utiliser ces commandes pour afficher une liste de vos tâches, annuler une tâche, afficher une description de tâche spécifique, etc. Par exemple, pour afficher la liste de toutes vos tâches Dataflow, exécutez la commande suivante dans votre interface système ou votre terminal :
gcloud dataflow jobs list
L'outil gcloud
affiche la liste de vos tâches comme suit :
ID NAME TYPE CREATION_TIME STATE REGION 2015-06-03_16_39_22-4020553808241078833 wordcount-janedoe-0603233849 Batch 2015-06-03 16:39:22 Done us-central1 2015-06-03_16_38_28-4363652261786938862 wordcount-johndoe-0603233820 Batch 2015-06-03 16:38:28 Done us-central1 2015-05-21_16_24_11-17823098268333533078 bigquerytornadoes-johndoe-0521232402 Batch 2015-05-21 16:24:11 Done europe-west1 2015-05-21_13_38_06-16409850040969261121 bigquerytornadoes-johndoe-0521203801 Batch 2015-05-21 13:38:06 Done us-central1 2015-05-21_13_17_18-18349574013243942260 bigquerytornadoes-johndoe-0521201710 Batch 2015-05-21 13:17:18 Done europe-west1 2015-05-21_12_49_37-9791290545307959963 wordcount-johndoe-0521194928 Batch 2015-05-21 12:49:37 Done us-central1 2015-05-20_15_54_51-15905022415025455887 wordcount-johndoe-0520225444 Batch 2015-05-20 15:54:51 Failed us-central1 2015-05-20_15_47_02-14774624590029708464 wordcount-johndoe-0520224637 Batch 2015-05-20 15:47:02 Done us-central1
À l'aide de l'ID de la tâche, vous pouvez exécuter la commande describe
pour afficher plus d'informations sur une tâche.
export JOBID=<X> gcloud dataflow jobs describe $JOBID
Par exemple, si vous exécutez la commande pour l'ID de tâche 2015-02-09_11_39_40-15635991037808002875
, l'outil gcloud
affiche les informations suivantes :
createTime: '2015-02-09T19:39:41.140Z' currentState: JOB_STATE_DONE currentStateTime: '2015-02-09T19:56:39.510Z' id: 2015-02-09_11_39_40-15635991037808002875 name: tfidf-bchambers-0209193926 projectId: google.com:clouddfe type: JOB_TYPE_BATCH
Vous pouvez exécuter la commande avec l'option --format=json
pour afficher le résultat au format JSON.
gcloud --format=json dataflow jobs describe $JOBID
L'outil gcloud
affiche les informations formatées suivantes :
{ "createTime": "2015-02-09T19:39:41.140Z", "currentState": "JOB_STATE_DONE", "currentStateTime": "2015-02-09T19:56:39.510Z", "id": "2015-02-09_11_39_40-15635991037808002875", "name": "tfidf-bchambers-0209193926", "projectId": "google.com:clouddfe", "type": "JOB_TYPE_BATCH" }
Pour obtenir la liste complète des commandes jobs
, consultez la page sur la commande gcloud dataflow jobs dans la documentation du SDK Cloud.
Commandes des journaux
Les commandes logs
affichent les entrées de journal pour les tâches exécutées sur le service Dataflow.
Par exemple, vous pouvez utiliser la commande list
pour imprimer les journaux contenant des informations sur ce qu'accomplit la tâche.
export JOBID=<X> gcloud dataflow logs list $JOBID
Pour l'ID de tâche 2015-02-09_11_39_40-15635991037808002875
, l'outil gcloud
affiche :
Listed 0 items.
Dans cet exemple, aucun journal ne s'est affiché avec la gravité par défaut (Warning
). Vous pouvez inclure les journaux BASIC
en exécutant la commande list
avec l'option --importance=detailed
.
gcloud dataflow logs list $JOBID --importance=detailed
L'outil gcloud
imprime les journaux suivants :
d 2016-08-29T09:33:28 2015-02-09_11_39_40-15635991037808002875_00000156d72606f7 (39b2a31f5e883423): Starting worker pool synchronously d 2016-08-29T09:33:28 2015-02-09_11_39_40-15635991037808002875_00000156d7260871 (39b2a31f5e883ce9): Worker pool is running d 2016-08-29T09:33:28 2015-02-09_11_39_40-15635991037808002875_00000156d7260874 (39b2a31f5e883b77): Executing operation Count.PerElement/Sum.PerKey/GroupByKey/GroupByKeyOnly… ...
Pour obtenir la liste complète des commandes logs
, consultez la page sur la commande gcloud dataflow logs dans la documentation du SDK Cloud.
Commandes des métriques
Les commandes metrics
permettent d'afficher les métriques d'une tâche Dataflow donnée.
Remarque : Les noms de commandes metric
sont sujets à modification, et certaines métriques peuvent être supprimées.
Vous pouvez exécuter la commande list
pour obtenir des informations sur les étapes de votre tâche.
gcloud dataflow metrics list $JOBID
Pour cette commande, l'outil gcloud
affiche :
--- name: name: s09-s14-start-msecs origin: dataflow/v1b3 scalar: 137 updateTime: '2016-08-29T16:35:50.007Z' --- name: context: output_user_name: WordCount.CountWords/Count.PerElement/Init-out0 name: ElementCount origin: dataflow/v1b3 scalar: 26181 updateTime: '2016-08-29T16:35:50.007Z' --- name: context: step: s2 name: emptyLines origin: user scalar: 1080 updateTime: '2016-08-29T16:35:50.007Z' ...
Vous pouvez exécuter la commande gcloud dataflow metrics list
pour obtenir des métriques provisoires pendant l'exécution de votre tâche (ou peu de temps après son achèvement). Pour afficher des métriques provisoires, exécutez la commande avec l'option --tentative
. Une métrique marquée comme tentative
est mise à jour fréquemment, car les instances de nœuds de calcul traitent les données de votre pipeline. Leur quantité peut diminuer si un nœud de calcul rencontre une erreur. Les métriques tentative
deviennent des valeurs committed
lorsqu'un nœud de calcul termine son travail et valide les résultats.
Pour obtenir la liste complète des commandes metrics
, consultez la page sur la commande gcloud dataflow metrics dans la documentation du SDK Cloud.
Utiliser des commandes avec des points de terminaison régionaux
L'interface de ligne de commande Dataflow est compatible avec les points de terminaison régionaux depuis la version 176 de l'outil gcloud. Utilisez l'option --region
avec n'importe quelle commande pour spécifier le point de terminaison régional qui gère votre tâche.
Par exemple, gcloud dataflow jobs list
répertorie les tâches de toutes les régions, mais gcloud dataflow jobs list --region=europe-west1
ne répertorie que les tâches gérées depuis europe-west1
.
Remarque : L'option --region
est requise pour obtenir des informations sur la tâche à partir d'un point de terminaison régional. Si vous ne spécifiez pas de point de terminaison régional, us-central1
sera utilisé comme point de terminaison par défaut.