Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3
Cette page explique comment accéder au tableau de bord de surveillance d'un environnement Cloud Composer et l'utiliser.
Pour obtenir un tutoriel sur la surveillance des métriques clés de l'environnement, consultez Surveiller l'état et les performances de l'environnement à l'aide de métriques clés.
Pour en savoir plus sur des métriques spécifiques, consultez Surveiller des environnements avec Cloud Monitoring
Accéder au tableau de bord de surveillance
Le tableau de bord de surveillance contient des métriques et des graphiques pour surveiller les tendances dans DAG s'exécute dans votre environnement et identifier les problèmes liés à Airflow des composants et des ressources Cloud Composer.
Pour accéder au tableau de bord de surveillance de votre environnement:
Dans la console Google Cloud, accédez à la page Environnements.
Dans la liste des environnements, cliquez sur le nom de votre environnement. La page Détails de l'environnement s'ouvre.
Accédez à l'onglet Surveillance.
Configurer des alertes pour les métriques
Vous pouvez configurer des alertes pour une métrique. Pour ce faire, cliquez sur l'icône en forme de cloche située dans l'angle de la carte de surveillance.
Afficher une métrique dans Monitoring
Vous pouvez examiner une métrique plus en détail dans Monitoring.
Pour y accéder depuis le tableau de bord de surveillance Cloud Composer, cliquez sur les trois points dans le coin supérieur droit d'une fiche de métrique et sélectionnez Afficher dans l'Explorateur de métriques
Description des métriques
Chaque environnement Cloud Composer possède son propre tableau de bord de surveillance. Les métriques affichées sur un tableau de bord de surveillance pour un environnement particulier ne suivent que les exécutions DAG, les composants Airflow et les détails de l'environnement pour cet environnement uniquement. Par exemple, si vous disposez de deux environnements, le tableau de bord n'agrège pas les métriques des deux environnements.
Vue d'ensemble de l'environnement
Métrique d'environnement | Description |
---|---|
État de l'environnement (DAG de surveillance Airflow) | Chronologie indiquant l'état du déploiement de Composer. L'état vert ne reflète que l'état du déploiement Composer. Cela ne signifie pas que tous les composants Airflow sont opérationnels et que les DAG peuvent être exécutés. |
Pulsation du programmeur | Chronologie indiquant la pulsation du planificateur Airflow. Recherchez des zones rouges pour identifier les problèmes liés au planificateur Airflow. Si votre environnement comporte plusieurs planificateurs, l'état de la pulsation est correct tant qu'au moins l'un d'entre eux répond. |
État du serveur Web | Chronologie indiquant l'état du serveur Web Airflow. Cet état est généré en fonction des codes d'état HTTP renvoyés par le serveur Web Airflow. |
État de la base de données | Chronologie affichant l'état de la connexion à l'instance Cloud SQL qui héberge la base de données Airflow. |
Opérations liées à l'environnement | Une chronologie montrant les opérations qui modifient l'environnement, telles que des mises à jour de configuration ou le chargement d'instantanés de l'environnement. |
Opérations de maintenance | Une chronologie indiquant les périodes pendant lesquelles des opérations de maintenance sont effectuées sur le cluster de l'environnement. |
Dépendances de l'environnement | Chronologie affichant l'état des vérifications de joignabilité et d'autorisation pour le fonctionnement de l'environnement. |
Statistiques du DAG
Métrique d'environnement | Description |
---|---|
Exécutions DAG ayant réussi | Nombre total d'exécutions réussies pour tous les DAG de l'environnement au cours de la période sélectionnée. Si le nombre d'exécutions DAG réussies est inférieur aux niveaux attendus, cela peut signifier des échecs (voir Échecs d'exécution DAG) ou un problème de planification. |
Exécutions DAG ayant échoué Tâches ayant échoué | Nombre total d'exécutions ayant échoué pour tous les DAG de l'environnement au cours de la période sélectionnée. Nombre total de tâches ayant échoué dans l'environnement au cours de la période sélectionnée. Les tâches ayant échoué n'entraînent pas toujours l'échec de l'exécution d'un DAG, mais elles peuvent s'avérer utiles pour résoudre les erreurs de DAG. |
Exécutions DAG terminées | Nombre de succès et d'échecs du DAG pour les intervalles au cours de la période sélectionnée. Cela peut aider à identifier les problèmes temporaires liés aux exécutions DAG et à les mettre en corrélation avec d'autres événements, tels que les évictions de pods de nœuds de calcul. |
Tâches terminées | Nombre de tâches effectuées dans l'environnement, avec une répartition des tâches réussies et ayant échoué. |
Durée moyenne d'une exécution DAG | Durée moyenne des exécutions DAG. Ce graphique permet d'identifier les problèmes de performances et d'identifier les tendances de la durée du DAG. |
Tâches Airflow | Nombre de tâches en cours d'exécution, en file d'attente ou différées à un moment donné. Les tâches Airflow sont des tâches qui sont en file d'attente dans Airflow. Elles peuvent être envoyées à la file d'attente du courtier Celery ou de l'exécuteur Kubernetes. Les tâches en file d'attente Celery sont des instances de tâches placées dans la file d'attente de l'agent Celery. |
Tâches zombie supprimées | Nombre de tâches zombies supprimées pendant une courte période. Les tâches zombies sont souvent provoquées par l'arrêt externe des processus Airflow. Comme indiqué dans ce graphique, le programmeur Airflow supprime régulièrement des tâches zombies. |
Taille de sac du DAG | Nombre de DAG déployés dans le bucket de votre environnement et traités par Airflow à un moment donné. Cela peut être utile lors de l'analyse des goulots d'étranglement des performances. Par exemple, un nombre plus élevé de déploiements de DAG peut dégrader les performances en raison d'une charge excessive. |
Erreurs du processeur DAG | Nombre d'erreurs et d'expirations de délai par seconde lors du traitement des fichiers DAG. La valeur indique la fréquence des erreurs signalées par le processeur DAG. Elle ne correspond pas au nombre de DAG ayant échoué. |
Durée d'analyse totale pour tous les DAG | Graphique indiquant le temps total nécessaire à Airflow pour traiter tous les DAG dans l'environnement. L'augmentation du temps d'analyse peut affecter l'efficacité de la programmation. Pour en savoir plus, consultez la section Différence entre le temps d'analyse du DAG et le temps d'exécution du DAG. |
Statistiques du planificateur
Métrique d'environnement | Description |
---|---|
Pulsation du programmeur | Consultez l'article Présentation de l'environnement. |
Utilisation totale du processeur du programmeur | Utilisation totale des cœurs de vCPU par les conteneurs exécutés dans tous les pods de planificateur Airflow, ainsi que limite combinée des vCPU pour tous les planificateurs. |
Utilisation totale de la mémoire pour le programmeur | Utilisation totale de la mémoire par les conteneurs s'exécutant dans tous les pods de programmeurs Airflow et limite de vCPU combinés pour tous les programmeurs. |
Utilisation totale du disque par le planificateur | Utilisation totale de l'espace disque par les conteneurs s'exécutant dans tous les pods de programmeurs Airflow et limite d'espace disque combiné pour tous les programmeurs. |
Redémarrages des conteneurs du programmeur | Nombre total de redémarrages pour les conteneurs de planificateurs individuels. |
Évictions de pods du programmeur | Nombre d'évictions de pods du programmeur Airflow. L'éviction d'un pod peut se produire lorsqu'un pod donné du cluster de votre environnement atteint ses limites de ressources. |
Statistiques sur les nœuds de calcul
Métrique d'environnement | Description |
---|---|
Utilisation totale du processeur par les nœuds de calcul | Utilisation totale des cœurs de processeur virtuel par les conteneurs exécutés dans tous les pods de nœuds de calcul Airflow, ainsi que la limite combinée de vCPU pour tous les nœuds de calcul. |
Utilisation totale de la mémoire pour les nœuds de calcul | Utilisation totale de la mémoire par les conteneurs exécutés dans tous les pods de nœuds de calcul Airflow, ainsi que la limite combinée de vCPU pour tous les nœuds de calcul. |
Utilisation totale du disque pour les nœuds de calcul | Utilisation totale de l'espace disque par les conteneurs exécutés dans tous les pods de nœuds de calcul Airflow, ainsi que la limite combinée de l'espace disque pour tous les nœuds de calcul. |
Nœuds de calcul actifs | Nombre actuel de nœuds de calcul dans votre environnement. Dans Cloud Composer 2, votre environnement ajuste automatiquement le nombre de nœuds de calcul actifs. |
Redémarrages de conteneurs de nœuds de calcul | Nombre total de redémarrages pour des conteneurs de nœuds de calcul individuels. |
Évictions de pods de nœuds de calcul | Nombre d'évictions de pods de nœuds de calcul Airflow. L'éviction d'un pod peut se produire lorsqu'un pod donné du cluster de votre environnement atteint ses limites de ressources. Si un pod de nœuds de calcul Airflow est évincé, toutes les instances de tâches en cours d'exécution sur ce pod sont interrompues, puis marquées comme ayant échoué par Airflow. |
Tâches Airflow | Consultez l'article Présentation de l'environnement. |
Expirations de délais lors d'une publication vers l'agent Celery |
Nombre total d'erreurs AirflowTaskTimeout générées lors de la publication de tâches sur les courtiers Celery. Cette métrique correspond à la métrique Airflow celery.task_timeout_error . |
Échecs de commande d'exécution Celery |
Nombre total de codes de sortie non nuls pour les tâches Celery. Cette métrique correspond à la métrique Airflow celery.execute_command.failure . |
Tâches arrêtées par le système | Nombre de tâches de workflow pour lesquelles l'exécuteur de tâches a été arrêté par un SIGKILL (par exemple, en raison de problèmes de mémoire ou de pulsation des nœuds). |
Statistiques du serveur Web
Métrique d'environnement | Description |
---|---|
État du serveur Web | Consultez la section Vue d'ensemble de l'environnement. |
Utilisation du processeur du serveur Web | Utilisation totale des cœurs de vCPU par les conteneurs exécutés dans toutes les instances de serveur Web Airflow, ainsi que la limite combinée de vCPU pour tous les serveurs Web. |
Utilisation de la mémoire du serveur Web | Utilisation totale de la mémoire par les conteneurs exécutés dans toutes les instances de serveur Web Airflow, ainsi que limite combinée de vCPU pour tous les serveurs Web. |
Utilisation totale du disque du serveur Web | Utilisation totale de l'espace disque par les conteneurs exécutés dans toutes les instances du serveur Web Airflow, ainsi que limite de l'espace disque combiné pour tous les serveurs Web. |
Statistiques sur les bases de données SQL
Métrique d'environnement | Description |
---|---|
État de la base de données | Consultez la section Vue d'ensemble de l'environnement. |
Utilisation du processeur de la base de données | Utilisation des cœurs de processeur par les instances de base de données Cloud SQL de votre environnement. |
Utilisation de la mémoire de la base de données | Utilisation totale de la mémoire par les instances de base de données Cloud SQL de votre environnement. |
Utilisation du disque de la base de données | Utilisation totale de l'espace disque par les instances de base de données Cloud SQL de votre environnement. Cette métrique s'applique à l'instance de base de données Cloud SQL elle-même. Elle ne diminue donc pas lorsque la taille de la base de données Airflow est réduite. Pour obtenir une métrique qui indique la taille du contenu de la base de données Airflow, consultez la section "Taille de la base de données de métadonnées Airflow". |
Taille de la base de données de métadonnées Airflow | Taille de la base de données de métadonnées Airflow. Cette métrique s'applique au composant Airflow de votre environnement et indique l'espace disque occupé par la base de données de métadonnées Airflow sur l'instance de base de données Cloud SQL. Cette métrique diminue lorsque la taille de la base de données de métadonnées Airflow est réduite (par exemple, après la maintenance de la base de données Airflow) et détermine si vous pouvez créer des instantanés et mettre à niveau des environnements. Cette métrique est différente de la métrique "Utilisation de l'espace disque de la base de données", qui indique la quantité d'espace disque utilisée par les instances de base de données Cloud SQL. |
Connexions à la base de données | Nombre total de connexions actives à la base de données et limite du nombre total de connexions. |
Différence entre le temps d'analyse du DAG et le temps d'exécution du DAG
Le tableau de bord de surveillance d'un environnement affiche le temps total requis pour analyser tous les DAG de votre environnement Cloud Composer, ainsi que le temps moyen d'exécution d'un DAG.
L'analyse d'un DAG et la planification des tâches d'un DAG pour exécution sont deux opérations distinctes effectuées par le programmeur Airflow.
Le temps d'analyse du DAG correspond au temps nécessaire au planificateur Airflow pour lire et analyser un fichier DAG.
Avant de pouvoir planifier une tâche d'un DAG, le programmeur Airflow doit analyser le fichier DAG pour découvrir la structure du DAG et les tâches définies. Une fois le fichier de DAG analysé, le programmeur peut commencer à planifier des tâches du DAG.
Le temps d'exécution du DAG est la somme de tous les temps d'exécution des tâches pour un DAG.
Pour connaître le temps nécessaire pour exécuter une tâche Airflow spécifique à partir d'un DAG, l'interface Web Airflow, sélectionnez un DAG et ouvrez le Onglet Durée de la tâche. Cet onglet affiche les temps d'exécution des tâches pour le nombre spécifié de dernières exécutions de DAG.