Surveiller des environnements dans Cloud Console

Cette page explique comment accéder au tableau de bord de surveillance d'un environnement Cloud Composer et l'utiliser. Ce tableau de bord contient des métriques et des graphiques permettant de surveiller les tendances dans les exécutions de DAG dans votre environnement et d'identifier les problèmes liés aux composants Airflow et aux ressources Cloud Composer.

Accéder au tableau de bord de surveillance

  1. Accédez à la page Environnements dans Cloud Console.

    Ouvrir la page Environnements

  2. Recherchez dans la liste le nom de l'environnement que vous souhaitez surveiller. Cliquez sur le nom de l'environnement pour ouvrir l'onglet de surveillance de la page Détails de l'environnement.

Sélectionner une période

Vous pouvez sélectionner dans la liste située en haut à droite de la page la période des données à afficher dans le tableau de bord.

Sélecteur de période

Vous pouvez également effectuer un zoom sur une période particulière en faisant un cliquer-tirer sur un graphique. La nouvelle période sera appliquée à toutes les métriques. Réinitialisez le zoom en cliquant sur le bouton RESET ZOOM à gauche des périodes.

Configurer des alertes

Vous pouvez configurer des alertes pour une métrique. Pour ce faire, cliquez sur l'icône en forme de cloche située dans l'angle de la carte de surveillance.

Alertes de surveillance

Afficher une métrique dans Monitoring

Vous pouvez examiner une métrique plus en détail dans Monitoring. Pour y accéder à partir du tableau de bord de surveillance de Cloud Composer, cliquez sur les trois points dans l'angle supérieur droit d'une carte de métriques, puis sélectionnez Afficher dans l'Explorateur de métriques.

Afficher dans l'Explorateur de métriques

Description des métriques

Chaque environnement Cloud Composer possède son propre tableau de bord de surveillance. Les métriques ci-dessous ne suivent que les exécutions DAG, les composants Airflow et les détails de l'environnement pour l'environnement actuellement sélectionné.

Vue d'ensemble de l'environnement

Métrique d'environnement Description
Utilisation du processeur par nœud Graphique illustrant l'utilisation des cœurs de processeur agrégés sur l'ensemble des pods en cours d'exécution du nœud, mesuré en fonction du taux d'utilisation du temps processeur. Cela n'inclut pas l'utilisation du processeur de l'instance App Engine utilisée pour l'interface utilisateur Airflow ou l'instance Cloud SQL. Une utilisation élevée du processeur est souvent la cause principale des évictions de pods de nœuds de calcul. Si vous constatez une utilisation très élevée, envisagez d'effectuer un scaling horizontal de votre environnement Composer ou de modifier la programmation de vos exécutions DAG.
Utilisation de la mémoire par nœud Utilisation de la mémoire par nœud dans le cluster GKE. Cela n'inclut pas l'utilisation de la mémoire de l'instance App Engine utilisée pour l'interface utilisateur Airflow ou l'instance Cloud SQL. Une utilisation élevée de la mémoire est souvent la cause principale des évictions de pods de nœuds de calcul, ce qui peut entraîner des échecs de DAG.
État de l'environnement Chronologie indiquant l'état du déploiement de Composer. L'état vert ne signifie pas que tous les composants Airflow étaient opérationnels et que les DAG pouvaient être exécutés. Il ne reflète que l'état du déploiement de Composer.
État de la base de données Chronologie indiquant l'état de la connexion à l'instance Cloud SQL Composer.
État du serveur Web Chronologie indiquant l'état du serveur Web de l'interface utilisateur Airflow. Généré en fonction des codes d'état HTTP renvoyés par le serveur d'interface utilisateur.

Composants Airflow

Métrique Airflow Description
Pulsation du programmeur Chronologie indiquant à quel moment le programmateur Airflow se signale par une pulsation (c.-à-d. lorsqu'il répond). Recherchez des zones rouges pour identifier les problèmes liés au planificateur Airflow.
Nœuds de calcul actifs Graphique indiquant le nombre de nœuds de calcul actifs sur la période sélectionnée. Par défaut, ce nombre doit être égal au nombre de nœuds du cluster Airflow, mais il peut augmenter si un scaling horizontal de l'environnement a été effectué. Si le nombre de nœuds de calcul actifs diminue, cela peut indiquer des échecs de processus de nœuds de calcul (voir le graphique des évictions de pods de nœuds de calcul).
Évictions de pods de nœuds de calcul1 Graphique montrant le nombre d'évictions de pods de nœuds de calcul GKE au fil du temps. Les évictions de pods sont souvent provoquées par l'épuisement des ressources GKE. Pour en savoir plus, consultez le graphique sur l'utilisation du processeur/de la mémoire par nœud.
Tâches zombie supprimées1 Graphique indiquant le nombre de tâches zombies supprimées pendant une courte période. Les tâches zombies sont souvent provoquées par l'arrêt externe des processus Airflow. Le programmeur Airflow supprime régulièrement les tâches zombies, ce qui devrait apparaître dans ce graphique.

Exécutions DAG

Métrique d'exécution DAG Description
Exécutions DAG ayant réussi Nombre total d'exécutions réussies pour tous les DAG de l'environnement au cours de la période sélectionnée. Si cette valeur est inférieure aux niveaux attendus, cela peut signifier des échecs (voir Échecs d'exécution DAG) ou un problème de programmation.
Exécutions DAG ayant échoué Nombre total d'exécutions ayant échoué pour tous les DAG de l'environnement au cours de la période sélectionnée.
Tâches en échec1 Nombre total de tâches ayant échoué dans l'environnement au cours de la période sélectionnée. Les tâches ayant échoué n'entraînent pas toujours l'échec de l'exécution d'un DAG, mais elles peuvent s'avérer utiles pour résoudre les erreurs de DAG.
Exécutions DAG terminées Graphique à barres indiquant le nombre de succès et d'échecs du DAG pour des intervalles dans la période sélectionnée. Cela peut aider à identifier les problèmes temporaires liés aux exécutions DAG et à les mettre en corrélation avec d'autres événements, tels que les évictions de pods de nœuds de calcul.
Durée moyenne d'une exécution DAG Graphique indiquant la durée moyenne des exécutions DAG qui se sont terminées pendant une courte période. Ce graphique permet d'identifier les problèmes de performances et d'identifier les tendances de la durée du DAG.
Tâches terminées1 Graphique indiquant le nombre de tâches effectuées dans l'environnement pendant une courte période avec une répartition des tâches réussies et ayant échoué.
Tâches en cours1 et en file d'attente Graphique indiquant le nombre de tâches en cours d'exécution et mises en file d'attente à un moment donné. Consultez le nombre de tâches en file d'attente pour identifier les goulots d'étranglement liés aux performances ou les charges excessives. La file d'attente s'allonge lorsque les tâches ne peuvent pas être exécutées immédiatement. Consultez le nombre de tâches en cours d'exécution pour repérer les problèmes de programmation. Par exemple, si le nombre de tâches en cours d'exécution diminue considérablement, cela peut suggérer un problème à ce niveau.
Taille de sac du DAG1 Graphique montrant le nombre de DAG déployés dans un bucket Cloud Storage et traités par Airflow à un moment donné. Cela peut être utile lors de l'analyse des goulots d'étranglement des performances. Par exemple, une augmentation du nombre de déploiements de DAG peut nuire aux performances en raison d'une charge excessive.
Erreurs d'importation de fichiers DAG1 Graphique indiquant le nombre d'erreurs d'analyse de DAG dans pendant une courte période. Cela peut aider à identifier les cas où des DAG corrompus ont été traités par Airflow, ce qui indique des problèmes dans le code source du DAG.
Temps d'analyse total pour tous les DAG1 Graphique indiquant le temps total nécessaire à Airflow pour traiter tous les DAG dans l'environnement. L'augmentation du temps d'analyse peut affecter l'efficacité de la programmation.

1 Disponible pour les environnements utilisant Composer version 1.10.0 ou ultérieure et Airflow version 1.10.6 ou ultérieure.