Utiliser l'interface de surveillance des jobs Dataflow

Lorsque vous exécutez votre pipeline à l'aide de Dataflow, vous pouvez afficher la tâche correspondante et toute autre tâche au moyen de l'interface Web de surveillance de Dataflow. Elle vous permet de voir vos tâches Dataflow et d'interagir avec.

Vous pouvez accéder à l'interface de surveillance Dataflow dans la console Google Cloud. L'interface de surveillance peut vous montrer :

  • la liste de tous les jobs Dataflow en cours d'exécution et de tous ceux exécutés au cours des 30 derniers jours ;
  • une représentation graphique de chaque pipeline ;
  • des détails concernant l'état de votre tâche, le type, et la version du SDK ;
  • des liens vers des informations sur les services Google Cloud exécutant votre pipeline (tels que Compute Engine et Cloud Storage) ;
  • toute erreur ou avertissement survenus au cours d'une tâche ;
  • des diagnostics supplémentaires pour une tâche.

Vous pouvez afficher les visualiseurs de jobs dans l'interface de surveillance Dataflow. Ces graphiques affichent des métriques sur la durée d'une tâche et incluent les informations suivantes:

  • Visibilité au niveau des étapes pour identifier celles susceptibles de causer un retard de pipeline
  • Informations statistiques pouvant révéler un comportement anormal
  • Métriques d'E/S pouvant vous aider à identifier les goulots d'étranglement dans vos sources et vos récepteurs

Accéder à l'interface de surveillance Dataflow

Pour accéder à l'interface de surveillance Dataflow, procédez comme suit :

  1. Connectez-vous à la console Google Cloud.
  2. Sélectionnez votre projet Google Cloud.
  3. Ouvrez le menu de navigation.
  4. Dans Analyse, cliquez sur Dataflow.

Une liste des tâches Dataflow ainsi que leur état respectif apparaissent. Si vous ne voyez aucune tâche, vous devez en exécuter une nouvelle. Pour apprendre à exécuter un job, consultez le guide de démarrage rapide avec Java, le guide de démarrage rapide pour Python ou le guide de démarrage rapide pour Go.

Liste des tâches Dataflow en cours, ayant échoué et ayant réussi.
Figure 1: Liste des tâches Dataflow dans la console Google Cloud ayant l'état Starting (Démarrage), Failed (Échec) et Succeeded (Réussie).

Une tâche peut présenter les états suivants :

  •  : l'interface de surveillance n'a pas encore reçu d'information d'état de la part du service Dataflow.
  • Running (en cours d'exécution) : la tâche est en cours d'exécution.
  • Starting... (en cours de démarrage) : la tâche est créée, mais le système a besoin d'un certain temps pour se préparer avant de la lancer.
  • En file d'attente: une tâche FlexRS est en file d'attente ou une tâche de modèle Flex est lancée (ce qui peut prendre plusieurs minutes).
  • Cancelling... (en cours d'annulation) : la tâche est en cours d'annulation.
  • Cancelled (annulée) : la tâche est annulée.
  • Draining… (Drainage…) : la tâche est en cours de drainage.
  • Drained (drainée) : la tâche est drainée.
  • Updating… (Mise à jour…) : la tâche est en cours de mise à jour.
  • Updated (mise à jour) : la tâche est mise à jour.
  • Succeeded (Réussie) : la tâche s'est correctement terminée.
  • Failed (échec) : la tâche n'a pas abouti.

Accéder aux visualiseurs de jobs

Pour accéder aux graphiques permettant de surveiller votre job, cliquez sur le nom du job dans l'interface de surveillance Dataflow. La page Job details (Informations sur la tâche) s'affiche. Elle contient les informations suivantes :

  • Job graph (Graphique de la tâche) : représentation visuelle de votre pipeline
  • Execution details (Détails de l'exécution) : outil permettant d'optimiser les performances de votre pipeline
  • Job metrics (Métriques de tâche) : métriques sur l'exécution de votre tâche
  • Coût : métriques sur le coût estimé de votre tâche
  • Autoscaling : métriques liées aux événements d'autoscaling des jobs en streaming
  • Volet Job info (Informations sur la tâche) : informations descriptives sur votre pipeline
  • Job logs (Journaux de la tâche) : journaux générés par le service Dataflow au niveau de la tâche
  • Journaux de nœud de calcul : journaux générés par le service Dataflow au niveau du nœud de calcul
  • Diagnostics : table indiquant l'origine des erreurs sur la chronologie choisie et les recommandations possibles pour votre pipeline.
  • Échantillonnage de données : outil permettant d'observer les données à chaque étape d'un pipeline. Reportez-vous à Utiliser l'échantillonnage de données pour observer les données du pipeline.

Sur la page Détails du job, vous pouvez basculer l'affichage du job avec les onglets Graphique du job, Détails de l'exécution, Métriques du job, Coût et Autoscaling.

Graphiques de job

Lorsque vous sélectionnez un job Dataflow spécifique, l'interface de surveillance fournit une représentation graphique de votre pipeline : le graphique de job. La page "Graphique de jobs" de la console fournit également un résumé des jobs, un journal de job et des informations sur chaque étape du pipeline. Pour en savoir plus sur les graphiques de jobs, consultez la page Graphiques de jobs Dataflow.

Métriques de job

Vous pouvez afficher les graphiques dans l'onglet Job metrics de l'interface Web de Dataflow. Chaque métrique est organisée dans les tableaux de bord suivants :

Métriques générales

Métriques de streaming (pipelines de traitement en flux continu uniquement)

Métriques sur les ressources

Métriques d'entrée

Métriques de sortie

Alertes Cloud Monitoring

Consultez Créer des alertes Cloud Monitoring.

Surveillance des coûts

La page Coût de la console Google Cloud indique le coût estimé de votre job Dataflow actuel. Les coûts estimés sont calculés en multipliant les métriques d'utilisation des ressources, telles qu'elles sont indiquées dans Cloud Monitoring, par le prix de ces ressources dans la région correspondant au job.

Utiliser la surveillance des coûts

Les estimations des coûts des jobs sont disponibles pour les jobs de traitement par lot et les jobs de traitement de flux. La page Coût dans la console Google Cloud fournit les informations suivantes :

  • Informations sur les ressources qui contribuent au coût d'un job, et dans quelle mesure. Les ressources incluent les vCPU (processeurs virtuels), la mémoire, les données Dataflow Shuffle traitées ou les données Streaming Engine traitées, ainsi que l'utilisation des disques SSD et HDD.
  • Les coûts sur des périodes spécifiques, telles que : le temps écoulé depuis le début du job, l'heure qui vient de s'écouler, les dernières 24 heures, les sept derniers jours et une période spécifiée par l'utilisateur.

Vous pouvez utiliser des alertes de surveillance pour recevoir des notifications lorsque les coûts de votre job dépassent un seuil spécifié. Vous pouvez également utiliser des alertes pour apporter des modifications à vos jobs, par exemple les arrêter ou les annuler, en fonction des seuils que vous avez définis.

Pour créer une règle d'alerte Cloud Monitoring, cliquez sur Créer une alerte. Pour obtenir des instructions sur la configuration de ces alertes, consultez la page Utiliser Cloud Monitoring pour les pipelines Dataflow.

Limites

La surveillance des coûts Dataflow n'est pas compatible avec les jobs Dataflow Prime et les métriques des GPU.

Métriques d'autoscaling

Vous pouvez afficher les graphiques de surveillance de l'autoscaling pour les jobs de streaming dans l'interface de surveillance Dataflow. Ces graphiques affichent des métriques sur la durée d'une tâche de pipeline et incluent les informations suivantes :

  • Nombre d'instances de nœuds de calcul utilisées par votre job à tout moment
  • Procéder à l'autoscaling des fichiers journaux
  • Estimation de l'évolution de la quantité de jobs en attente
  • Utilisation moyenne du processeur au fil du temps

Pour en savoir plus, consultez la page Surveiller l'autoscaling Dataflow.

Recommandations et diagnostics

Dataflow fournit des recommandations pour améliorer les performances des tâches, réduire les coûts et résoudre les erreurs. Cette section explique comment examiner et interpréter les recommandations. Gardez à l'esprit que certaines recommandations peuvent ne pas être pertinentes pour votre cas d'utilisation.

Recommandations

L'onglet Recommandations affiche des insights Dataflow concernant le pipeline. Le but de ces insights est d'identifier les situations dans lesquelles des améliorations de performances et des optimisations des coûts sont possibles.

Onglet "Recommendations" (Recommandations) d'une tâche Dataflow avec des exemples de recommandations.

La colonne Mettre à jour la date indique la dernière fois qu'un insight a été observé. Les recommandations sont stockées pendant 30 jours à compter de la date de mise à jour.

Accès automatisé aux recommandations

Pour un accès automatisé aux recommandations, utilisez l'API Recommender.

Ignorer une recommandation

Vous pouvez ignorer une recommandation dans le centre de recommandations de votre projet.

Pour ignorer une recommandation, procédez comme suit:

  1. Dans la console Google Cloud, ouvrez le menu de navigation.
  2. Sélectionnez Accueil, puis Recommandations.
  3. Sur la fiche Diagnostics Dataflow, cliquez sur Tout afficher.
  4. Sélectionnez la recommandation que vous souhaitez ignorer, puis cliquez sur Ignorer.

Diagnostic

L'onglet Diagnostics du volet Journaux collecte et affiche certaines entrées de journal générées dans vos pipelines. Ces entrées incluent des messages indiquant un problème probable avec le pipeline et des messages d'erreur avec des traces de pile. Les entrées de journal collectées sont dédupliquées et combinées en groupes d'erreurs.

Onglet "Diagnostics" d'un job Dataflow avec un groupe d'erreurs "Erreur de service".

Le rapport d'erreurs comprend les informations suivantes :

  • Une liste des erreurs avec les messages correspondants
  • Nombre d'occurrences de chaque erreur
  • Un histogramme indiquant quand est survenue chaque erreur
  • Heure à laquelle l'erreur s'est produite pour la dernière fois
  • Heure à laquelle l'erreur s'est produite pour la première fois
  • État de l'erreur

Pour afficher le rapport d'erreurs pour une erreur spécifique, cliquez sur la description dans la colonne Erreurs. La page Error Reporting s'affiche. S'il s'agit d'une erreur de service, un lien vers le guide de dépannage s'affiche.

Page de détails du groupe d'erreurs pour une erreur de service Dataflow.

Pour en savoir plus sur cette page, consultez la section Afficher et filtrer les erreurs.

Ignorer une erreur

Pour couper le son d'un message d'erreur, procédez comme suit:

  1. Ouvrez l'onglet Diagnostic.
  2. Cliquez sur l'erreur que vous souhaitez ignorer.
  3. Ouvrez le menu d'état de la résolution. Les états sont les suivants : Ouvert, Confirmé, Résolu ou Ignoré.
  4. Sélectionnez Coupée.

Étape suivante