Dataflow fournit un onglet Execution details (Détails d'exécution) dans son interface utilisateur de surveillance Web. Utilisez les informations de cet onglet pour optimiser les performances de vos tâches et déterminer pourquoi elles peuvent être lentes ou bloquées. Une fois votre tâche lancée, vous pouvez afficher l'onglet Détails d'exécution à l'aide de l'interface utilisateur de surveillance de Dataflow. Pour en savoir plus, consultez la section Accéder à l'interface de surveillance Dataflow.
Cette fonctionnalité n'entraîne aucune utilisation supplémentaire du processeur ou du réseau pour vos VM. Les détails d'exécution sont collectés par le système de surveillance backend de Dataflow, qui n'affecte pas les performances de la tâche.
Cette page offre une présentation générale de la fonctionnalité d'exécution et de l'agencement de son interface utilisateur. Pour en savoir plus sur le dépannage, consultez la page Dépannage et débogage des pipelines.
Quand utiliser les détails de l'exécution ?
Voici des scénarios courants d'utilisation des détails de l'exécution lors de l'exécution de tâches Dataflow :
- Votre pipeline est bloqué et vous souhaitez résoudre le problème.
- Votre pipeline est lent et vous souhaitez l'optimiser.
- Il n'y a pas de problème particulier, mais vous souhaitez consulter les détails de l'exécution de votre pipeline pour comprendre votre tâche.
Terminologie
Pour utiliser efficacement les détails de l'exécution, il est utile de comprendre comment les concepts suivants s'appliquent aux tâches Dataflow.
Terminologie associée à Dataflow
- Optimisation de la fusion: processus de fusion de plusieurs étapes ou transformations de Dataflow. Ce processus optimise les pipelines envoyés par les utilisateurs. Pour en savoir plus, consultez la section Optimisation de la fusion.
- Étapes : unité formée par les étapes fusionnées dans les pipelines Dataflow.
- Dernière étape : nœud final dans les pipelines Dataflow. Un pipeline peut comporter plusieurs nœuds finaux.
Terminologie de la diffusion par lot
- Chemins critiques : séquence des étapes d'un pipeline contribuant à l'exécution globale de la tâche. Par exemple, cette séquence exclut les étapes suivantes :
- Branches du pipeline qui se sont terminées plus tôt que la tâche globale.
- Entrées qui n'ont pas retardé le traitement en aval.
- Nœuds de calcul : instances de VM Compute Engine exécutant une tâche Dataflow.
- Éléments de travail: unités de travail correspondant à un bundle sélectionné par Dataflow.
Terminologie de la diffusion en flux continu
- Fraîcheur des données: temps écoulé entre le temps réel et la marque de sortie. Pour en savoir plus, consultez la page Fraîcheur des données.
Utiliser l'onglet "Détails de l'exécution"
L'onglet Execution details (Détails de l'exécution) comprend quatre vues: Progression de l'étape, Panneau d'informations sur l'étape (dans la section Progression de l'étape), Workflow de l'étape et Progression du nœud de calcul.
La vue Workflow des étapes est automatiquement activée pour toutes les tâches par lot et en flux continu. Les jobs par lot et par flux ont également une vue Progression des étapes, et les jobs par lot disposent d'une vue Progression des nœuds de calcul supplémentaire.
Cette section vous guide dans chaque vue et donne des exemples de tâches Dataflow qui ont réussi et qui ont échoué.
Progression de l'étape pour les tâches par lot
La vue Progression de l'étape des tâches par lot indique les étapes d'exécution de la tâche, organisées suivant leurs heures de début et de fin. La durée est représentée par une barre. Par exemple, vous pouvez identifier visuellement les étapes les plus longues d'un pipeline en recherchant la barre la plus longue.
Pour chacune des barres, un sparkline montre la progression de l'étape au fil du temps. Pour mettre en évidence les étapes qui ont contribué à l'exécution globale de la tâche, cliquez sur le bouton Chemin d'accès critique. Vous pouvez également utiliser Filtrer les étapes pour ne sélectionner que les étapes qui vous intéressent.
Progression de l'étape pour les tâches en flux continu
La vue Progression des étapes de traitement en flux continu peut être divisée en deux sections. La première moitié de la vue affiche un graphique représentant la fraîcheur des données pour chaque étape d'exécution de la tâche. Passez la souris sur le graphique pour afficher la valeur "Fraîcheur des données" à ce moment précis.
La moitié inférieure de la vue montre les étapes d'exécution de la tâche, dans l'ordre topologique. Les étapes sans descendants sont affichées en premier, suivies de leurs descendants. Cette vue facilite l'identification des étapes d'un pipeline qui prennent plus de temps qu'elles ne le devraient. Les barres sont dimensionnées par rapport à la fraîcheur des données la plus longue pour l'ensemble de la zone temporelle.
Les jobs en streaming s'exécutent jusqu'à leur annulation, leur drainage ou leur mise à jour.
- Utilisez l'outil de sélection du temps affiché avec le graphique pour réduire le domaine à une période plus utile.
- Utilisez le menu Filtrer les étapes pour sélectionner les étapes qui vous intéressent.
La vue Progression de l'étape vous aide à identifier plus facilement lorsque votre tâche en flux continu est lente ou bloquée de deux manières différentes:
Le graphique Actualisation des données par étapes inclut la détection d'anomalies, qui affiche automatiquement les périodes pendant lesquelles la fraîcheur des données semble non opérationnelle. Le graphique met en surbrillance le risque de blocage potentiel lorsque la fraîcheur des données dépasse le 99e centile pour la période sélectionnée. De même, le graphique met en évidence la lenteur potentielle lorsque la fraîcheur des données dépasse le 95e centile.
Détectez les goulots d'étranglement en pointant sur un moment du graphique qui affiche des résultats inattendus. Les barres plus longues indiquent des étapes plus lentes. Vous pouvez également cliquer sur l'axe des abscisses du graphique pour afficher les données à ce moment-là. Une approche courante pour rechercher l'étape à l'origine du blocage ou de la lenteur consiste à repérer l'étape la plus élevée en amont ou la plus basse en aval. Cette approche ne convient pas à tous les scénarios, et vous devrez peut-être effectuer un débogage supplémentaire pour identifier la cause exacte.
Panneau d'informations sur l'étape
Le panneau Informations sur l'étape affiche la liste des étapes associées à l'étape, classées par ordre décroissant de durée d'exécution. Pour ouvrir le panneau, maintenez le pointeur sur l'une des barres de la vue Progression des étapes, puis cliquez sur Afficher les détails.
Workflow des étapes
Le workflow des étapes affiche les étapes d'exécution de la tâche, représentées sous la forme d'un graphique de workflow. Pour n'afficher que les étapes ayant directement contribué à l'exécution globale de la tâche, cliquez sur le bouton Chemin d'accès critique.
Progression des nœuds de calcul
Pour les tâches par lot, la progression du nœud de calcul affiche les nœuds de calcul pour une étape donnée. Cette vue n'est pas disponible pour les tâches de traitement en flux continu.
Chaque barre correspond à un élément de travail programmé pour un nœud de calcul. Vous trouverez un graphique sparkline retraçant l'utilisation du processeur sur chaque nœud de calcul, ce qui vous aide à repérer plus facilement les problèmes d'utilisation.
En raison de la densité de cette visualisation, vous devez filtrer cette vue en présélectionnant une étape. Commencez par identifier une étape dans la vue Progression de l'étape. Pointez sur cette étape, puis cliquez sur Afficher les nœuds de calcul pour accéder à la vue Progression des nœuds de calcul.
Étape suivante
- Découvrez comment résoudre les problèmes liés aux jobs lents ou bloqués.
- Découvrez les différents composants de l'interface utilisateur Web de surveillance de Dataflow.