Détails de l'exécution

Dataflow fournit un onglet Execution details (Détails d'exécution) dans son interface utilisateur de surveillance Web. Cet outil peut vous aider à optimiser les performances de vos tâches et à déterminer pourquoi elles peuvent être lentes ou bloquées. Ce document est destiné à tous les utilisateurs Dataflow qui doivent inspecter les détails d'exécution de leurs tâches Dataflow.

Cette page offre une présentation générale de la fonctionnalité d'exécution et de l'agencement de son interface utilisateur. Pour plus d'informations sur le dépannage, consultez la section Utiliser l'onglet "Détails de l'exécution".

Terminologie

Pour utiliser efficacement les détails de l'exécution, vous devez comprendre comment les concepts clés suivants s'appliquent aux tâches Dataflow :

Terminologie associée à Dataflow

  • Optimisation de la fusion: processus de fusion de plusieurs étapes ou transformations de Dataflow. Cela permet d'optimiser les pipelines envoyés par les utilisateurs. Pour en savoir plus, consultez la section Optimisation de la fusion.
  • Étapes : unité formée par les étapes fusionnées dans les pipelines Dataflow.
  • Dernière étape : nœud final dans les pipelines Dataflow. Un pipeline peut comporter plusieurs nœuds finaux.

Terminologie de la diffusion par lot

  • Chemins critiques : séquence des étapes d'un pipeline contribuant à l'exécution globale de la tâche. Par exemple, cette séquence exclut les étapes suivantes :
    • Branches du pipeline qui se sont terminées plus tôt que la tâche globale.
    • Entrées qui n'ont pas retardé le traitement en aval.
  • Nœuds de calcul : instances de VM Compute Engine exécutant une tâche Dataflow.
  • Éléments de travail : unités de travail correspondant à un bundle sélectionné par Dataflow.

Terminologie de la diffusion en flux continu

Quand utiliser les détails de l'exécution ?

Voici des scénarios courants d'utilisation des détails de l'exécution lors de l'exécution de tâches Dataflow :

  • Votre pipeline est bloqué et vous souhaitez résoudre le problème.
  • Votre pipeline est lent et vous souhaitez l'optimiser.
  • Il n'y a pas de problème particulier, mais vous souhaitez consulter les détails de l'exécution de votre pipeline pour comprendre votre tâche.

Activer les détails de l'exécution

La vue Workflow des étapes est automatiquement activée pour toutes les tâches par lot et en flux continu. Les jobs par lot et par flux ont également une vue Progression des étapes, et les jobs par lot disposent d'une vue Progression des nœuds de calcul supplémentaire.

Cette fonctionnalité n'entraîne aucune utilisation supplémentaire du processeur, du réseau, etc. pour vos VM. Les détails d'exécution sont collectés par le système de surveillance backend de Dataflow, qui n'affecte pas les performances de la tâche.

Une fois votre tâche lancée, vous pouvez afficher l'onglet Détails d'exécution à l'aide de l'interface utilisateur de surveillance de Cloud Dataflow. Pour en savoir plus, consultez la section Accéder à l'interface de surveillance Dataflow.

Utiliser l'onglet "Détails de l'exécution"

L'onglet Execution details (Détails de l'exécution) comprend quatre vues : Progression de l'étape, Panneau d'informations sur l'étape (dans la section Progression de l'étape), Workflow de préproduction et Progression du nœud de calcul. Cette section vous guide dans chaque vue et donne des exemples de tâches Dataflow qui ont réussi et qui ont échoué.

Progression de l'étape pour les tâches par lot

La vue Progression de l'étape des tâches par lot indique les étapes d'exécution de la tâche, organisées suivant leurs heures de début et de fin. La durée est représentée par une barre. Par exemple, vous pouvez identifier visuellement les étapes les plus longues d'un pipeline en recherchant la barre la plus longue.

Sous chaque barre se trouve un sparkline qui montre la progression de l'étape au fil du temps. Pour mettre en évidence les étapes qui ont contribué à l'exécution globale de la tâche, cliquez sur le bouton Chemin d'accès critique. Vous pouvez également utiliser le menu déroulant "Filtrer les étapes" pour ne sélectionner que les étapes qui vous intéressent.

Exemple de vue de la progression de l'étape pour les tâches par lot, montrant la visualisation de la durée pour six étapes d'exécution différentes.

Progression de l'étape pour les tâches en flux continu

La vue Progression des étapes de traitement par flux peut être divisée en deux sections. La partie supérieure de la vue affiche un graphique représentant la fraîcheur des données pour chaque étape d'exécution de la tâche. Passez la souris sur le graphique pour afficher la valeur "Fraîcheur des données" à ce moment précis. La moitié inférieure de la vue montre les étapes d'exécution de la tâche, dans l'ordre topologique. Les étapes sans descendants sont affichées en haut, et leurs descendants sont listés en dessous. Cette vue facilite l'identification des étapes d'un pipeline qui prennent plus de temps qu'elles ne le devraient. Les barres sont dimensionnées par rapport à la fraîcheur des données la plus longue pour l'ensemble de la zone temporelle.

Les jobs en streaming s'exécutent jusqu'à leur annulation, leur drainage ou leur mise à jour. L'outil de sélection situé au-dessus du graphique permet de réduire le domaine à une période plus utile. Vous pouvez également utiliser le menu déroulant "Filtrer les étapes" pour ne sélectionner que les étapes qui vous intéressent.

La vue Progression de l'étape permet d'identifier plus facilement lorsque votre tâche en flux continu est lente ou bloquée de deux manières différentes :

  1. Le graphique de fraîcheur des données par étapes inclut la détection d'anomalies, qui affiche automatiquement les périodes pendant lesquelles la fraîcheur des données semble non opérationnelle. Le graphique met en surbrillance le risque de blocage potentiel lorsque la fraîcheur des données dépasse le 99e centile pour la période sélectionnée. De même, le graphique met en évidence la lenteur potentielle lorsque la fraîcheur des données dépasse le 95e centile.
  2. Les goulots d'étranglement peuvent être détectés en passant d'abord la souris sur une heure dans le graphique, ce qui semble anormal. Lorsque vous passez la souris, des barres plus longues indiquent des étapes plus lentes. Vous pouvez également cliquer sur l'axe des abscisses du graphique pour afficher les données à ce moment-là. Une approche courante pour rechercher l'étape à l'origine du blocage ou de la lenteur consiste à repérer l'étape la plus élevée en amont ou la plus basse en aval. Cette approche ne convient pas à tous les scénarios et un débogage supplémentaire peut être nécessaire pour identifier la cause exacte.

Exemple de vue de la progression de l'étape pour les tâches en flux continu, montrant la visualisation de la durée d'une phase d'exécution et une possible anomalie de ralentissement.

Panneau d'informations sur l'étape

Le panneau Informations sur l'étape affiche la liste des étapes associées à l'étape, classées par ordre décroissant de durée d'exécution. Le panneau s'ouvre dans la partie droite de l'écran. Pour ouvrir le panneau, passez la souris sur l'une des barres de la vue Progression des étapes, puis cliquez sur Afficher les détails.

Exemple du Panneau d'informations sur l'étape

Workflow des étapes

Le workflow des étapes affiche les étapes d'exécution de la tâche, représentées sous la forme d'un graphique de workflow. Pour n'afficher que les étapes ayant directement contribué à l'exécution globale de la tâche, cliquez sur le bouton Chemin d'accès critique.

Exemple de vue de workflow de l'étape, montrant la hiérarchie des différentes étapes d'exécution d'une tâche.

Progression des nœuds de calcul

Pour les tâches par lot, la progression du nœud de calcul affiche les nœuds de calcul pour une étape donnée. Cette vue n'est pas disponible pour les tâches de traitement par flux.

Chaque barre correspond à un élément de travail programmé pour un nœud de calcul. Vous trouverez sous chaque nœud de calcul un graphique sparkline retraçant l'utilisation du processeur sur ce nœud de calcul, ce qui vous aide à repérer plus facilement les problèmes d'utilisation.

En raison de la densité de cette visualisation, vous devez filtrer cette vue en présélectionnant une étape. Commencez par identifier une étape dans la vue Progression de l'étape. Passez la souris sur cette étape, puis cliquez sur Afficher les nœuds de calcul pour accéder à la vue Progression des nœuds de calcul.

Exemple de vue de progression du nœud de calcul. Les nœuds de calcul disposent de barres et de graphiques sparkline correspondant à la planification d'éléments de travail et à l'utilisation du processeur.

Étapes suivantes