Métriques de job Dataflow

Vous pouvez afficher les graphiques dans l'onglet Métriques de job de la page Dataflow dans la console Google Cloud. Chaque métrique est organisée dans les tableaux de bord suivants :

Métriques générales

Métriques de streaming (pipelines de traitement par flux uniquement)

Métriques sur les ressources

Métriques d'entrée

Métriques de sortie

Pour plus d'informations sur les scénarios dans lesquels vous pouvez utiliser ces métriques pour le débogage, consultez la section Outils pour le débogage de la page "Résoudre les problèmes de tâches lentes ou bloquées".

Compatibilité et limites

Lorsque vous utilisez les métriques Dataflow, tenez compte des détails suivants.

  • Les données des jobs sont parfois indisponibles par intermittence. Lorsque des données sont manquantes, des écarts apparaissent dans les graphiques de surveillance des jobs.

  • Certains de ces graphiques sont spécifiques aux pipelines de traitement par flux.

  • Pour écrire des données de métriques, un compte de service géré par l'utilisateur doit disposer de l'autorisation d'API IAM monitoring.timeSeries.create. Cette autorisation est incluse dans le rôle de nœud de calcul Dataflow.

  • Le service Dataflow signale le temps CPU réservé une fois les jobs terminés. Pour les jobs illimités (en streaming), le temps CPU réservé n'est indiqué qu'après l'annulation ou l'échec des jobs. Par conséquent, les métriques de job n'incluent pas le temps CPU réservé pour les jobs traités par flux.

Accéder aux métriques de job

  1. Connectez-vous à la console Google Cloud.
  2. Sélectionnez votre projet Google Cloud.
  3. Ouvrez le menu de navigation et sélectionnez Dataflow.
  4. Dans la liste des jobs, cliquez sur le nom de votre job. La page "Job Details" (informations sur le job) s'ouvre alors.
  5. Cliquez sur l'onglet Job metrics (Métriques de job).

Pour accéder à des informations supplémentaires dans les graphiques de métriques de job, cliquez sur Explorer les données.

Utilisez Cloud Monitoring

Dataflow est entièrement intégré à Cloud Monitoring. Utilisez Cloud Monitoring pour les tâches suivantes :

Pour obtenir des instructions concernant la création d'alertes et l'utilisation de l'explorateur de métriques, consultez la page Utiliser Cloud Monitoring pour les pipelines Dataflow.

Créer des alertes Cloud Monitoring

Cloud Monitoring vous permet de créer des alertes lorsque votre job Dataflow dépasse un seuil défini par l'utilisateur. Pour créer une alerte Cloud Monitoring à partir d'un graphique de métriques, cliquez sur Créer une règle d'alerte.

Si vous ne parvenez pas à afficher les graphiques de surveillance ou à créer des alertes, vous avez peut-être besoin d'autorisations Monitoring supplémentaires.

Afficher dans l'Explorateur de métriques

Vous pouvez afficher les graphiques de métriques Dataflow dans l'Explorateur de métriques, où vous pouvez créer des requêtes et ajuster la période des métriques.

Pour afficher les graphiques Dataflow dans l'explorateur de métriques, dans la vue Métriques de job, ouvrez Autres options des graphiques et cliquez sur Afficher dans l'Explorateur de métriques.

Lorsque vous ajustez la période des métriques, vous pouvez sélectionner une durée prédéfinie ou un intervalle de temps personnalisé pour analyser votre job.

Par défaut, pour les jobs par flux et les jobs par lot en cours, l'affichage affiche les six heures précédentes de métriques pour ce job. Pour les jobs par flux arrêtés ou terminés, l'affichage par défaut affiche l'intégralité de l'environnement d'exécution de la durée du job.

Métriques d'E/S Dataflow

Vous pouvez afficher les métriques d'E/S Dataflow suivantes dans l'explorateur de métriques :

Pour obtenir la liste complète des métriques Dataflow, consultez la documentation sur les métriques Google Cloud.

Métriques de l'étape et du nœud de calcul

Les sections suivantes fournissent des détails sur les métriques de phase et de nœud de calcul disponibles dans l'interface de surveillance.

Autoscaling

Le service Dataflow choisit automatiquement le nombre d'instances de nœud de calcul nécessaires à l'exécution de votre tâche d'autoscaling. Le nombre d'instances de nœud de calcul peut changer au fil du temps en fonction des exigences de la tâche.

Visualisation des données montrant le nombre de nœuds de calcul dans un pipeline

Pour afficher l'historique des modifications de l'autoscaling, cliquez sur le bouton More history (Plus d'entrées d'historique). Une table contenant des informations sur l'historique des nœuds de calcul de votre pipeline s'affiche.

Tableau illustrant l'historique des nœuds de calcul d'un pipeline.

Productivité

Le débit correspond au volume de données traitées à tout moment. Cette métrique par étape est affichée en tant que nombre d'éléments par seconde. Pour afficher cette métrique en octets par seconde, affichez le graphique Débit (octets/s) plus bas sur la page.

Visualisation des données montrant le débit de quatre étapes d'un pipeline.

Décompte de journal d'erreur de nœud de calcul

Le volet Worker error log count (Décompte de journal d'erreur de nœud de calcul) indique le taux d'erreurs observées sur tous les nœuds de calcul à tout moment.

Récapitulatif de chaque erreur consignée et de son nombre d'occurrences.

Fraîcheur des données (avec et sans Streaming Engine)

La métrique de fraîcheur des données montre la différence en secondes entre l'horodatage de l'élément de données et le moment où l'événement est traité dans votre pipeline. L'élément de données reçoit un horodatage lorsqu'un événement se produit sur l'élément, par exemple un clic sur un site Web ou une ingestion par Pub/Sub. Le filigrane de sortie correspond à l'heure à laquelle les données sont traitées.

À tout moment, la tâche Dataflow traite plusieurs éléments. Les points de données du graphique de fraîcheur des données montrent l'élément avec le délai le plus long par rapport à l'heure son l'événement. Par conséquent, la même ligne du graphique affiche des données pour plusieurs éléments. Chaque point de données de la ligne affiche les données de l'élément le plus lent à cette étape du pipeline.

Si certaines données d'entrée n'ont pas encore été traitées, le filigrane de sortie peut être retardé, ce qui affecte la fraîcheur des données. Une différence significative entre l'heure du filigrane et l'heure de l'événement peut indiquer une opération lente ou bloquée.

Pour les tâches traitées par flux récemment mises à jour, les informations sur l'état et le filigrane des tâches peuvent être indisponibles. Les opérations de mise à jour apportent plusieurs modifications qui mettent quelques minutes à se propager sur l'interface de surveillance de Dataflow. Essayez d'actualiser l'interface de surveillance cinq minutes après la mise à jour de la tâche.

Pour en savoir plus, consultez la section Filigranes et données en retard dans la documentation Apache Beam.

Le tableau de bord comprend les deux graphiques suivants :

  • Fraîcheur des données par étapes
  • Fraîcheur des données

Visualisation des données montrant la fraîcheur des données dans un pipeline de streaming.

Dans l'image précédente, la zone en surbrillance montre une différence importante entre l'heure de l'événement et l'heure du filigrane de sortie, indiquant une opération lente.

Les métriques de fraîcheur des données élevées (par exemple, des métriques indiquant que les données sont moins récentes) peuvent être causées par :

  • Des goulots d'étranglement des performances : si votre pipeline comporte des étapes présentant une latence système élevée ou des journaux indiquant des transformations bloquées élevées, le pipeline peut rencontrer des problèmes de performances susceptibles d'améliorer la fraîcheur des données. Suivez ces consignes pour résoudre les problèmes liés aux pipelines lents afin d'approfondir votre recherche.
  • Des goulots d'étranglement des sources de données : si les sources de données présentent des tâches en attente de traitement, les horodatages d'événements de vos éléments peuvent diverger par rapport au filigrane au moment du traitement. Une quantité élevée de tâches en attente est souvent causée par des goulots d'étranglement des performances ou par des problèmes liés aux sources de données, que vous pouvez identifier au mieux en surveillant les sources utilisées par votre pipeline.
    • Remarque : Les sources non ordonnées, telles que Pub/Sub, peuvent produire des filigranes bloqués même en sortie à un taux élevé. Cette situation se produit car les éléments ne sont pas générés dans l'ordre d'horodatage et le filigrane est basé sur l'horodatage minimal non traité.
  • Nouvelles tentatives : si vous obtenez des erreurs indiquant que les éléments ne peuvent pas être traités et que de nouvelles tentatives sont déclenchées, cela signifie que des horodatages plus anciens d'éléments faisant l'objet de nouvelles tentatives sont en train d'améliorer la fraîcheur des données. La liste des erreurs Dataflow courantes peut vous aider à résoudre les problèmes.

Latence du système (avec et sans Streaming Engine)

La latence du système correspond au nombre maximal de secondes pendant lequel un élément de données est en cours de traitement ou en attente. Cette métrique indique le délai d'attente d'un élément dans une source du pipeline. La durée maximale est ajustée après le traitement. Les cas suivants sont également à prendre en considération :

  • S'il existe plusieurs sources et récepteurs, la latence du système correspond au délai d'attente maximum d'un élément dans une source avant qu'il ne soit écrit dans tous les récepteurs.
  • Parfois, une source ne fournit pas de valeur pour la période pendant laquelle un élément est en attente dans la source. En outre, l'élément peut ne pas avoir de métadonnées permettant de définir son heure d'événement. Dans ce scénario, la latence du système est calculée à partir du moment où le pipeline reçoit l'élément.

Le tableau de bord comprend les deux graphiques suivants :

  • Latence du système par étapes
  • Latence du système

Visualisation de données montrant la latence du système dans un pipeline de streaming.

En attente

Le tableau de bord En attente fournit des informations sur les éléments en attente de traitement. Le tableau de bord comprend les deux graphiques suivants :

  • Secondes en attente (Streaming Engine uniquement)
  • Octets en attente (avec et sans Streaming Engine)

Le graphique secondes en attente fournit une estimation du temps en secondes nécessaire pour absorber les tâches en attente actuelles si aucune nouvelle donnée n'arrive, et que le débit ne change pas. Le temps d'attente estimé est calculé à partir du débit et des octets en attente de la source d'entrée à traiter. Cette métrique est utilisée par la fonctionnalité d'autoscaling de flux pour déterminer quand effectuer un scaling à la hausse ou à la baisse.

Visualisation des données montrant le graphique de secondes en attente dans un pipeline de flux continu.

Le graphique Octets en attente indique la quantité d'entrées non traitées connues pour une étape en octets. Cette métrique compare les octets restants à utiliser par chaque étape par rapport aux étapes en amont. Pour que cette métrique soit signalée avec précision, chaque source ingérée par le pipeline doit être configurée correctement. Les sources natives telles que Pub/Sub et BigQuery sont déjà compatibles directement. Cependant, les sources personnalisées nécessitent une mise en œuvre supplémentaire. Pour en savoir plus, consultez la section Autoscaling des sources illimitées personnalisées.

Visualisation des données montrant le graphique d'octets en attente dans un pipeline de traitement par flux.

Traitement (Streaming Engine seulement)

Lorsque vous exécutez un pipeline Apache Beam sur le service Dataflow, les tâches de pipeline sont exécutées sur des VM de nœud de calcul. Le tableau de bord Traitement fournit des informations sur la durée pendant laquelle les tâches ont été traitées sur les VM de nœud de calcul. Le tableau de bord comprend les deux graphiques suivants :

  • Carte de densité des latences de traitement des utilisateurs
  • Latences de traitement des utilisateurs par étape

La carte de densité des latences de traitement des utilisateurs indique les latences maximales des opérations sur les distributions des 50e, 95e et 99e centiles. utilisez la carte de densité pour voir si des opérations à longue traîne entraînent une latence globale du système élevée ou ont un impact négatif sur la fraîcheur globale des données.

Pour résoudre un problème en amont avant qu'il ne devienne un problème en aval, définissez une règle d'alerte pour les latences élevées au 50e centile.

Visualisation des données montrant la carte de densité des latences de traitement des utilisateurs pour un pipeline de streaming.

Le graphique Latences de traitement des utilisateurs par étape indique le 99e centile pour toutes les tâches traitées par les nœuds de calcul réparties par étape. Si le code utilisateur est à l'origine d'un goulot d'étranglement, ce graphique indique l'étape qui contient le goulot d'étranglement. Vous pouvez suivre les étapes ci-dessous pour déboguer le pipeline :

  1. Utilisez le graphique pour identifier une étape présentant une latence inhabituellement élevée.

  2. Sur la page des détails de la tâche, dans l'onglet Détails d'exécution, pour Vue graphique, sélectionnez Workflow des étapes. Dans le graphique Workflow des étapes, identifiez la phase présentant une latence inhabituellement élevée.

  3. Pour trouver les opérations utilisateur associées, cliquez sur le nœud de cette étape dans le graphique.

  4. Pour obtenir des informations supplémentaires, accédez à Cloud Profiler, puis utilisez Cloud Profiler pour déboguer la trace de la pile à la bonne période. Recherchez les opérations utilisateur que vous avez identifiées à l'étape précédente.

Visualisation des données montrant le graphique des latences de traitement des utilisateurs par étapes pour un pipeline de streaming.

Parallélisme (Streaming Engine uniquement)

Le graphique de Traitement en parallèle indique le nombre approximatif de clés utilisées pour le traitement des données pour chaque étape. Dataflow effectue le scaling en fonction du parallélisme d'un pipeline.

Lorsque Dataflow exécute un pipeline, le traitement est réparti sur plusieurs machines virtuelles (VM) Compute Engine, également appelées nœuds de calcul. Le service Dataflow parallélise la logique de traitement de votre pipeline et la distribue automatiquement aux nœuds de calcul. Le traitement d'une clé donnée est sérialisé. Le nombre total de clés pour une phase représente donc le parallélisme disponible maximal à cette étape.

Les métriques de parallélisme peuvent être utiles pour rechercher des clés en zone chaude ou des goulots d'étranglement pour des pipelines lents ou bloqués.

Visualisation des données montrant le graphique de traitement parallèle dans un pipeline de traitement par flux.

Persistance (Streaming Engine seulement)

Le tableau de bord Persistance fournit des informations sur la vitesse à laquelle le stockage persistant est écrit et lu par une étape de pipeline spécifique en octets par seconde. Le tableau de bord comprend les deux graphiques suivants :

  • Écriture du stockage
  • Lecture du stockage

Visualisation des données montrant le graphique d'écriture de stockage d'un pipeline de streaming.

Dupliquer (Streaming Engine uniquement)

Le graphique Dupliquer indique le nombre de messages traités par une étape spécifique qui ont été filtrés en tant que doublons. Dataflow est compatible avec de nombreuses sources et récepteurs qui garantissent la distribution de at least once. L'inconvénient de la distribution de at least once est qu'elle peut entraîner des doublons. Dataflow garantit la distribution de exactly once, ce qui signifie que les doublons sont automatiquement filtrés. Les étapes en aval sont sauvegardées lors du retraitement des mêmes éléments, ce qui garantit que l'état et les sorties ne sont pas affectés. Vous pouvez optimiser le pipeline pour optimiser les ressources et les performances en réduisant le nombre de doublons générés à chaque étape.

Visualisation des données montrant le graphique en double dans un pipeline de traitement par flux.

Minuteurs (Streaming Engine seulement)

Le tableau de bord Minuteurs fournit des informations sur le nombre de minuteurs en attente et sur le nombre de minuteurs déjà traités dans une étape spécifique du pipeline. Étant donné que les périodes reposent sur des minuteurs, cette métrique vous permet de suivre la progression des périodes.

Le tableau de bord comprend les deux graphiques suivants :

  • Minuteurs en attente par étape
  • Traitement des minuteurs par étape

Ces graphiques indiquent la fréquence à laquelle les périodes sont en attente ou en cours de traitement à un moment précis. Le graphique Timers pending by stage (Minuteurs en attente par étape) indique le nombre de périodes retardées en raison de goulots d'étranglement. Le graphique Timers processing by stage (Traitement des minuteurs par étape) indique le nombre de périodes en cours de collecte d'éléments.

Ces graphiques affichent tous les minuteurs de tâche. Par conséquent, si des minuteurs sont utilisés ailleurs dans votre code, ces minuteurs apparaissent également dans ces graphiques.

Visualisation des données indiquant le nombre de minuteurs en attente au cours d'une étape donnée.

Visualisation des données indiquant le nombre de minuteurs déjà traités au cours d'une étape donnée.

Utilisation du processeur

L'utilisation du processeur correspond à la quantité de processeur utilisée, divisée par la quantité de processeur disponible pour le traitement. Cette métrique par nœud de calcul est affichée sous forme de pourcentage. Le tableau de bord comprend les quatre graphiques suivants :

  • Utilisation du processeur (tous les nœuds de calcul)
  • Utilisation du processeur (statistiques)
  • Utilisation du processeur (les quatre plus élevés)
  • Utilisation du processeur (les quatre plus faibles)

Visualiser les données d'animation montrant l'utilisation du processeur pour un nœud de calcul Dataflow.

Utilisation de la mémoire

L'utilisation de la mémoire correspond à la quantité estimée de mémoire utilisée par les nœuds de calcul en octets par seconde. Le tableau de bord comprend les deux graphiques suivants :

  • Utilisation maximale de la mémoire des nœuds de calcul (estimation en octets par seconde)
  • Utilisation de la mémoire (estimation en octets par seconde)

Le graphique Utilisation maximale de la mémoire des nœuds de calcul fournit des informations sur les nœuds de calcul qui utilisent le plus de mémoire dans la tâche Dataflow à chaque instant. Si, à différents moments d'une tâche, le nœud de calcul utilisant la quantité maximale de mémoire change, la même ligne du graphique affiche les données de plusieurs nœuds de calcul. Chaque point de données de la ligne affiche les données du nœud de calcul à l'aide de la quantité maximale de mémoire à ce moment-là. Le graphique compare l'estimation de la mémoire utilisée par le nœud de calcul à la limite de mémoire en octets.

Vous pouvez utiliser ce graphique pour résoudre les problèmes de mémoire saturée (OOM, Out Of Memory). Les plantages des nœuds de calcul dus à la mémoire saturée ne sont pas affichés dans ce graphique.

Le graphique Utilisation de la mémoire indique une estimation de la mémoire utilisée par tous les nœuds de calcul de la tâche Dataflow par rapport à la limite de mémoire en octets.

Métriques d'entrée et de sortie

Si votre tâche Dataflow de traitement par flux lit ou écrit des enregistrements à l'aide de Pub/Sub, les métriques d'entrée et de sortie s'affichent.

Toutes les métriques d'entrée du même type sont combinées, et toutes les métriques de sortie. Par exemple, toutes les métriques Pub/Sub sont regroupées dans une section. Chaque type de métrique est organisé en une section distincte. Pour modifier les métriques affichées, sélectionnez la section à gauche qui correspond le mieux aux métriques que vous recherchez. Les images suivantes montrent toutes les sections disponibles.

Exemple d'image montrant les sections d'entrée et de sortie distinctes pour une tâche Dataflow.

Les deux graphiques suivants sont affichés à la fois dans les sections Métriques d'entrée et Métriques de sortie.

Série de graphiques affichant les métriques d'entrée et de sortie pour une tâche de traitement par flux Dataflow

Requêtes par seconde

Le nombre de requêtes par seconde correspond au taux des requêtes API de lecture ou d'écriture de données de la source ou du récepteur au fil du temps. Si ce taux est égal à zéro ou diminue de manière significative pendant une période prolongée par rapport au comportement attendu, le pipeline risque d'être bloqué pour exécuter certaines opérations. Il est également possible qu'il n'y ait aucune donnée à lire. Dans ce cas, nous vous recommandons d'examiner les étapes comportant un filigrane système élevé. Examinez également les journaux du nœud de calcul pour identifier les erreurs ou les éléments indiquant que le traitement est lent.

Graphique montrant le nombre de requêtes API de lecture ou d'écriture de données de la source ou du récepteur au fil du temps.

Erreurs de réponse par seconde et par type

Le nombre d'erreurs de réponse par seconde et par type d'erreur correspond au taux d'échec des requêtes API de lecture ou d'écriture de données de la source ou du récepteur au fil du temps. Si de telles erreurs se produisent fréquemment, ces requêtes API peuvent ralentir le traitement. Ces requêtes API en échec doivent être examinées. Pour résoudre ces problèmes, consultez la documentation générale sur le code d'erreur d'E/S. Consultez également la documentation spécifique sur les codes d'erreur utilisés par la source ou le récepteur, tels que les codes d'erreur Pub/Sub.

Graphique illustrant la fréquence d'échec des requêtes API de lecture ou d'écriture de données de la source ou du récepteur au fil du temps