Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3
Cette page explique comment surveiller l'état et les performances de l'environnement Cloud Composer global à l'aide de métriques clés dans le tableau de bord de surveillance.
Présentation
Ce tutoriel se concentre sur les principales métriques de surveillance de Cloud Composer qui peuvent fournir un bon aperçu de l'état et des performances au niveau de l'environnement.
Cloud Composer propose plusieurs métriques qui décrivent l'état global de l'environnement. Les consignes de ce tutoriel reposent sur sur les métriques affichées dans le tableau de bord Monitoring ; de votre environnement Cloud Composer.
Dans ce tutoriel, vous allez découvrir les métriques clés qui servent d'indicateurs principaux des problèmes liés aux performances et à l'état de votre environnement, ainsi que les consignes permettant d'interpréter chaque métrique en actions correctives pour maintenir l'environnement en bon état. Vous définirez aussi des règles d'alerte exécuter l'exemple de DAG, et utiliser ces métriques et alertes pour optimiser les performances de votre environnement.
Objectifs
Coûts
Ce tutoriel utilise les composants facturables suivants de Google Cloud :
- Cloud Composer (voir les frais supplémentaires)
- Cloud Monitoring
Une fois que vous avez terminé ce tutoriel, évitez de continuer à payer des frais en supprimant les ressources que vous avez créées. Pour en savoir plus, consultez Effectuer un nettoyage.
Avant de commencer
Cette section décrit les actions requises avant de commencer le tutoriel.
Créer et configurer un projet
Pour ce tutoriel, vous avez besoin d'un projet Google Cloud. Configurez le projet comme suit :
Dans la console Google Cloud, sélectionnez ou créez un projet:
Assurez-vous que la facturation est activée pour votre projet. Découvrez comment vérifier si la facturation est activée sur un projet.
Assurez-vous que l'utilisateur de votre projet Google Cloud dispose des rôles suivants pour créer les ressources nécessaires :
- Administrateur de l'environnement et des objets Storage
(
roles/composer.environmentAndStorageObjectAdmin
) - Administrateur de Compute (
roles/compute.admin
) - Éditeur Monitoring (
roles/monitoring.editor
)
- Administrateur de l'environnement et des objets Storage
(
Activer les API pour votre projet.
Enable the Cloud Composer API.
Créer votre environnement Cloud Composer
Créez un environnement Cloud Composer 2.
Dans le cadre de cette procédure,
vous accordez l'extension d'agent de service de l'API Cloud Composer v2
(roles/composer.ServiceAgentV2Ext
) à l'agent de service Composer
de service. Cloud Composer utilise ce compte pour effectuer des opérations dans votre projet Google Cloud.
Explorer les métriques clés pour l'état et les performances au niveau de l'environnement
Ce tutoriel se concentre sur les métriques clés qui peuvent vous donner un bon aperçu de l'état général et les performances de votre environnement.
Le tableau de bord Monitoring dans La console Google Cloud contient divers graphiques et métriques Surveillance des tendances dans votre environnement et identification des problèmes liés à Airflow des composants et des ressources Cloud Composer.
Chaque environnement Cloud Composer possède son propre tableau de bord de surveillance.
Familiarisez-vous avec les métriques clés ci-dessous et repérez-les dans le tableau de bord "Surveillance" :
Dans la console Google Cloud, accédez à la page Environnements.
Dans la liste des environnements, cliquez sur le nom de votre environnement. La page Détails de l'environnement s'ouvre.
Accédez à l'onglet Surveillance.
Sélectionnez la section Vue d'ensemble, recherchez l'élément Vue d'ensemble de l'environnement dans le tableau de bord, puis observez la métrique État de l'environnement (DAG de surveillance Airflow).
Cette chronologie indique l'état de Cloud Composer environnement. Couleur verte de la barre d'état de l'environnement indique que l'environnement est sain, tandis que l'état non opérationnel est indiqué en rouge.
Toutes les quelques minutes, Cloud Composer exécute un DAG d'activité nommé
airflow_monitoring
. Si l'exécution du DAG d'activité se termine correctement, l'état de fonctionnement estTrue
. Si l'exécution du DAG de vivacité échoue (par exemple, en raison de l'éviction d'un pod, de l'arrêt d'un processus externe ou de la maintenance), l'état d'intégrité estFalse
.
Sélectionnez la section Base de données SQL, recherchez l'élément État de la base de données dans le tableau de bord, puis observez la métrique État de la base de données.
Cette chronologie indique l'état de la connexion Instance Cloud SQL de votre environnement. Base de données verte barre d'état indique la connectivité, tandis que les échecs de connexion sont indiqué en rouge.
Le pod de surveillance Airflow envoie un ping à la base de données à intervalles réguliers l'état de fonctionnement défini sur
True
si une connexion peut être établie ouFalse
si ce n'est pas le cas.
Dans l'élément État de la base de données, observez les métriques Utilisation du processeur de la base de données et Utilisation de la mémoire de la base de données.
Le graphique "Utilisation du processeur de la base de données" indique l'utilisation des cœurs de processeur par les instances de base de données Cloud SQL de votre environnement par rapport à la limite totale de processeur de base de données disponible.
Le graphique d'utilisation de la mémoire de la base de données indique l'utilisation de la mémoire par aux instances de base de données Cloud SQL de votre environnement limite de mémoire totale disponible de la base de données.
Sélectionnez la section Planificateurs, recherchez l'élément Heartbeat du planificateur dans le tableau de bord, puis observez la métrique Heartbeat du planificateur.
Cette chronologie indique l'état du planificateur Airflow. Recherchez des zones rouges pour identifier les problèmes liés au planificateur Airflow. Si votre environnement a plus d'un programmeur, l'état de pulsation est tant qu'au moins l'un des planificateurs répond.
Le programmeur est considéré comme non opérationnel si la dernière pulsation a été reçue plus de 30 secondes (valeur par défaut) avant l'heure actuelle.
Sélectionnez la section Statistiques DAG, recherchez l'élément Tâches zombie supprimées dans le tableau de bord, puis observez la métrique Tâches zombie supprimées.
Ce graphique indique le nombre de tâches zombies tuées dans un petit période. Les tâches zombies sont souvent provoquées par l'arrêt externe des processus Airflow (par exemple, lorsque le processus d'une tâche est arrêté).
Le planificateur Airflow supprime régulièrement les tâches zombies, ce qui apparaît dans ce graphique.
Sélectionnez la section Nœuds de calcul, recherchez l'élément Redémarrages de conteneurs de nœuds de calcul dans le tableau de bord, puis observez la métrique Redémarrages de conteneurs de nœuds de calcul.
- Un graphique indique le nombre total de redémarrages pour chaque conteneur de nœud de calcul. Un trop grand nombre de redémarrages de conteneurs peut affecter la disponibilité votre service ou d'autres services en aval qui l'utilisent comme dépendance.
Découvrez les benchmarks et les mesures correctives possibles pour les métriques clés.
La liste suivante décrit les valeurs de référence pouvant indiquer des problèmes et fournit les mesures correctives que vous pouvez prendre pour les résoudre.
État de l'environnement (DAG de surveillance Airflow)
Taux de réussite inférieur à 90% sur une période de quatre heures
Les échecs peuvent entraîner l'éviction de pods ou l'arrêt des nœuds de calcul, car l'environnement est surchargé ou ne fonctionne pas correctement. Zones rouges sur l'environnement chronologie de l'état de santé corrélée aux zones rouges dans les autres barres de santé des composants de l'environnement. Identifiez l'origine du problème en examinant d'autres métriques dans le tableau de bord Monitoring.
État de la base de données
Taux de réussite inférieur à 95 % sur une période de quatre heures
Les échecs signifient qu'il existe des problèmes de connectivité avec la base de données Airflow, qui peuvent être dus à un plantage ou à un temps d'arrêt de la base de données en raison de sa surcharge (par exemple, en raison d'une utilisation élevée du processeur ou de la mémoire ou d'une latence plus élevée lors de la connexion à la base de données). Ces symptômes sont le plus souvent causées par des DAG non optimaux, par exemple lorsque les DAG utilisent de nombreuses variables d'environnement ou Airflow définies globalement. Identifier la racine en examinant les métriques d'utilisation des ressources de la base de données SQL. Vous pouvez également inspecter les journaux du programmeur à la recherche d'erreurs liées à la connectivité de la base de données.
Utilisation du processeur et de la mémoire de la base de données
Utilisation moyenne du processeur ou de la mémoire supérieure à 80 % sur une période de 12 heures
La base de données est peut-être surchargée. Analyser la corrélation entre votre DAG et les pics d'utilisation du processeur ou de la mémoire de la base de données.
Vous pouvez réduire la charge de la base de données grâce à des DAG plus efficaces avec des requêtes et connexions en cours d'exécution optimisées, ou en répartissant la charge plus uniformément au fil du temps.
Vous pouvez également allouer plus de processeurs ou de mémoire à la base de données. Les ressources de base de données sont contrôlées par la propriété de taille de l'environnement de votre environnement, qui doit être agrandi.
Pulsation du programmeur
Taux de réussite inférieur à 90% sur une période de quatre heures
Attribuez plus de ressources au planificateur ou augmentez le nombre de planificateurs de 1 à 2 (recommandé).
Tâches zombie supprimées
Plus d'une tâche zombie toutes les 24 heures
La raison la plus courante des tâches zombies est la pénurie de CPU ou de mémoire aux ressources du cluster de votre environnement. Examiner l'utilisation des ressources de nœuds de calcul graphiques et attribuer davantage de ressources à vos nœuds de calcul, ou augmenter le délai avant expiration des tâches zombies afin que le planificateur attende plus longtemps avant de considérer une tâche comme un zombie.
Redémarrages de conteneurs de nœuds de calcul
Plusieurs redémarrages toutes les 24 heures
La raison la plus courante est un manque de mémoire ou d'espace de stockage dans les nœuds de calcul. Examinez la consommation de ressources des nœuds de calcul et allouez-leur plus de mémoire ou de stockage. Si le manque de ressources n'est pas la raison, examinez résoudre les problèmes de redémarrage d'un nœud de calcul ; et utilisez Journalisation des requêtes pour découvrir les raisons des redémarrages des nœuds de calcul.
Créer des canaux de notification
Suivez les instructions fournies dans l'article Créez un canal de notification pour créer un canal de notification par e-mail.
Pour en savoir plus sur les canaux de notification, consultez Gérer les canaux de notification
Créer des règles d'alerte
Créez des règles d'alerte basées sur les benchmarks fournis de ce tutoriel pour surveiller en permanence les valeurs des métriques et reçoivent des notifications lorsque ces métriques ne respectent pas une condition.
Console
Vous pouvez configurer des alertes pour chaque métrique présentée dans le tableau de bord Monitoring en en cliquant sur l'icône en forme de cloche dans le coin de l'élément correspondant:
Recherchez chaque métrique que vous souhaitez surveiller dans le tableau de bord dans le tableau de bord, puis cliquez sur l'icône en forme de cloche dans l'angle de l'élément de métrique. La page Créer une règle d'alerte s'ouvre.
Dans la section Transform data (Transformer les données) :
Configurez la section Dans chaque série temporelle comme décrit dans des règles d'alerte pour la métrique.
Cliquez sur Suivant, puis configurez la section Configurer le déclencheur d'alerte comme décrit dans la configuration des règles d'alerte pour la métrique.
Cliquez sur Suivant.
Configurez les notifications. Développez le menu Canaux de notification. puis sélectionnez le ou les canaux de notification que vous avez créés à l'étape précédente.
Cliquez sur OK.
Dans la section Nommer la règle d'alerte, remplissez le champ Nom de la règle d'alerte. Attribuez un nom descriptif à chacune des métriques. Utilisez la valeur "Nommer la règle d'alerte", comme décrit dans la configuration des règles d'alerte pour la métrique.
Cliquez sur Suivant.
Examinez la règle d'alerte, puis cliquez sur Créer une règle.
Métrique sur l'état de l'environnement (DAG de surveillance Airflow) - Configurations des règles d'alerte
- Nom de la métrique : Environnement Cloud Composer – Bon état
- API : composer.googleapis.com/environment/healthy
Filtres :
environment_name = [ENVIRONMENT_NAME] location = [CLUSTER_LOCATION]
Transformer les données > dans chaque série temporelle:
- Fenêtre glissante: personnalisée
- Valeur personnalisée: 4
- Unités personnalisées: heure(s)
- Fenêtrage glissant : fraction (vrai)
Configurez le déclencheur d'alerte:
- Types de conditions: seuil
- Déclencheur d'alerte: à chaque infraction de série temporelle
- Position du seuil : en dessous du seuil
- Valeur du seuil : 90
- Nom de la condition : État de l'environnement
Configurez les notifications et finalisez l'alerte :
- Nommez la règle d'alerte : "État de l'environnement Airflow".
Métrique d'état de la base de données : configurations des règles d'alerte
- Nom de la métrique: Cloud Composer Environment - Database Healthy
- API: composer.googleapis.com/environment/database_health
Filtres :
environment_name = [ENVIRONMENT_NAME] location = [CLUSTER_LOCATION]
Transformer les données > Dans chaque série temporelle :
- Fenêtre glissante: personnalisée
- Valeur personnalisée: 4
- Unités personnalisées: heure(s)
- Fenêtrage glissant : fraction (vrai)
Configurez le déclencheur d'alerte:
- Types de conditions: seuil
- Déclencheur d'alerte: à chaque infraction de série temporelle
- Position du seuil: en dessous du seuil
- Valeur du seuil : 95
- Nom de la condition : état de la base de données
Configurez les notifications et finalisez l'alerte :
- Nommez la règle d'alerte : "Santé de la base de données Airflow".
Métrique d'utilisation du processeur de la base de données : configurations des règles d'alerte
- Nom de la métrique : Environnement Cloud Composer – Utilisation du processeur de la base de données
- API : composer.googleapis.com/environment/database/cpu/utilization
Filtres :
environment_name = [ENVIRONMENT_NAME] location = [CLUSTER_LOCATION]
Transformer les données > dans chaque série temporelle:
- Fenêtre glissante : personnalisée
- Valeur personnalisée: 12
- Unités personnalisées : heure(s)
- Fenêtrage glissant : moyenne
Configurez le déclencheur d'alerte:
- Types de conditions: seuil
- Déclencheur d'alerte : À chaque infraction de série temporelle
- Position du seuil: au-dessus du seuil
- Valeur du seuil : 80
- Nom de la condition: condition d'utilisation du processeur de la base de données
Configurer les notifications et finaliser l'alerte:
- Nommer la règle d'alerte: Utilisation du processeur de la base de données Airflow
Métrique d'utilisation du processeur de la base de données : configurations des règles d'alerte
- Nom de la métrique: Environnement Cloud Composer – Utilisation de la mémoire de base de données
- API : composer.googleapis.com/environment/database/memory/utilization
Filtres :
environment_name = [ENVIRONMENT_NAME] location = [CLUSTER_LOCATION]
Transformer les données > dans chaque série temporelle:
- Fenêtre glissante : personnalisée
- Valeur personnalisée: 12
- Unités personnalisées : heure(s)
- Fenêtrage glissant : moyenne
Configurez le déclencheur d'alerte:
- Types de conditions: seuil
- Déclencheur d'alerte : À chaque infraction de série temporelle
- Position du seuil: au-dessus du seuil
- Valeur du seuil: 80
- Nom de la condition: condition d'utilisation de la mémoire de la base de données
Configurer les notifications et finaliser l'alerte:
- Nommez la règle d'alerte : Utilisation de la mémoire de la base de données Airflow
Métrique de pulsations du programmeur - Configurations des règles d'alerte
- Nom de la métrique : Environnement Cloud Composer – Heartbeats du planificateur
- API : composer.googleapis.com/environment/scheduler_heartbeat_count
Filtres :
environment_name = [ENVIRONMENT_NAME] location = [CLUSTER_LOCATION]
Transformer les données > dans chaque série temporelle:
- Fenêtre glissante : personnalisée
- Valeur personnalisée: 4
- Unités personnalisées: heure(s)
- Fenêtrage glissant : nombre
Configurez le déclencheur d'alerte:
- Types de conditions: seuil
- Déclencheur d'alerte: à chaque infraction de série temporelle
- Position du seuil: en dessous du seuil
Valeur du seuil : 216
- Vous pouvez obtenir ce nombre en exécutant une requête qui agrège les valeurs
_scheduler_heartbeat_count_mean
dans la Éditeur de requête de l'Explorateur de métriques.
- Vous pouvez obtenir ce nombre en exécutant une requête qui agrège les valeurs
Nom de la condition: condition de pulsation du programmeur
Configurer les notifications et finaliser l'alerte:
- Nommez la règle d'alerte : "Pulsation du planificateur Airflow".
Métrique "Tâches zombie supprimées" : configurations des règles d'alerte
- Nom de la métrique: Cloud Composer Environment - Zombie Tasks Killed (Environnement Cloud Composer – Tâches zombies supprimées)
- API: composer.googleapis.com/environment/zombie_task_killed_count
Filtres :
environment_name = [ENVIRONMENT_NAME] location = [CLUSTER_LOCATION]
Transformer les données > Dans chaque série temporelle :
- Période glissante: 1 jour
- Fenêtrage glissant: somme
Configurez le déclencheur d'alerte:
- Types de conditions: seuil
- Déclencheur d'alerte : À chaque infraction de série temporelle
- Position du seuil : au-dessus du seuil
- Valeur du seuil : 1
- Nom de la condition: condition des tâches zombies
Configurez les notifications et finalisez l'alerte :
- Nommer la règle d'alerte: Tâches zombies Airflow
Métrique "Redémarrages des conteneurs de nœuds de calcul" - Configurations des règles d'alerte
- Nom de la métrique : Environnement Cloud Composer – Tâches zombie supprimées
- API: composer.googleapis.com/environment/zombie_task_killed_count
Filtres :
environment_name = [ENVIRONMENT_NAME] location = [CLUSTER_LOCATION]
Transformer les données > Dans chaque série temporelle :
- Fenêtre glissante : 1 jour
- Fenêtrage glissant: somme
Configurez le déclencheur d'alerte:
- Types de conditions: seuil
- Déclencheur d'alerte : À chaque infraction de série temporelle
- Position du seuil : au-dessus du seuil
- Valeur du seuil : 1
- Nom de la condition: condition des tâches zombies
Configurez les notifications et finalisez l'alerte :
- Nommez la règle d'alerte : "Tâches zombies Airflow".
Terraform
Exécutez un script Terraform qui crée un canal de notification par e-mail et importe des règles d'alerte pour les métriques clés fournies dans ce tutoriel, en fonction leurs benchmarks respectifs:
- Enregistrez l'exemple de fichier Terraform sur votre ordinateur local.
Remplacez les éléments suivants :
PROJECT_ID
: ID du projet de votre projet. Par exemple,example-project
.EMAIL_ADDRESS
: adresse e-mail à notifier en cas d'appel d'une est déclenchée.ENVIRONMENT_NAME
: nom de votre environnement Cloud Composer. Exemple :example-composer-environment
CLUSTER_NAME
: nom du cluster de votre environnement, disponible sous Configuration de l'environnement > Ressources > Cluster GKE dans la console Google Cloud.
resource "google_monitoring_notification_channel" "basic" {
project = "PROJECT_ID"
display_name = "Test Notification Channel"
type = "email"
labels = {
email_address = "EMAIL_ADDRESS"
}
# force_delete = false
}
resource "google_monitoring_alert_policy" "environment_health_metric" {
project = "PROJECT_ID"
display_name = "Airflow Environment Health"
combiner = "OR"
notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
conditions {
display_name = "Environment health condition"
condition_threshold {
filter = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/healthy\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
duration = "60s"
comparison = "COMPARISON_LT"
threshold_value = 0.9
aggregations {
alignment_period = "14400s"
per_series_aligner = "ALIGN_FRACTION_TRUE"
}
}
}
}
resource "google_monitoring_alert_policy" "database_health_metric" {
project = "PROJECT_ID"
display_name = "Airflow Database Health"
combiner = "OR"
notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
conditions {
display_name = "Database health condition"
condition_threshold {
filter = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/database_health\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
duration = "60s"
comparison = "COMPARISON_LT"
threshold_value = 0.95
aggregations {
alignment_period = "14400s"
per_series_aligner = "ALIGN_FRACTION_TRUE"
}
}
}
}
resource "google_monitoring_alert_policy" "alert_database_cpu_usage" {
project = "PROJECT_ID"
display_name = "Airflow Database CPU Usage"
combiner = "OR"
notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
conditions {
display_name = "Database CPU usage condition"
condition_threshold {
filter = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/database/cpu/utilization\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
duration = "60s"
comparison = "COMPARISON_GT"
threshold_value = 80
aggregations {
alignment_period = "43200s"
per_series_aligner = "ALIGN_MEAN"
}
}
}
}
resource "google_monitoring_alert_policy" "alert_database_memory_usage" {
project = "PROJECT_ID"
display_name = "Airflow Database Memory Usage"
combiner = "OR"
notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
conditions {
display_name = "Database memory usage condition"
condition_threshold {
filter = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/database/memory/utilization\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
duration = "60s"
comparison = "COMPARISON_GT"
threshold_value = 80
aggregations {
alignment_period = "43200s"
per_series_aligner = "ALIGN_MEAN"
}
}
}
}
resource "google_monitoring_alert_policy" "alert_scheduler_heartbeat" {
project = "PROJECT_ID"
display_name = "Airflow Scheduler Heartbeat"
combiner = "OR"
notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
conditions {
display_name = "Scheduler heartbeat condition"
condition_threshold {
filter = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/scheduler_heartbeat_count\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
duration = "60s"
comparison = "COMPARISON_LT"
threshold_value = 216 // Threshold is 90% of the average for composer.googleapis.com/environment/scheduler_heartbeat_count metric in an idle environment
aggregations {
alignment_period = "14400s"
per_series_aligner = "ALIGN_COUNT"
}
}
}
}
resource "google_monitoring_alert_policy" "alert_zombie_task" {
project = "PROJECT_ID"
display_name = "Airflow Zombie Tasks"
combiner = "OR"
notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
conditions {
display_name = "Zombie tasks condition"
condition_threshold {
filter = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/zombie_task_killed_count\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
duration = "60s"
comparison = "COMPARISON_GT"
threshold_value = 1
aggregations {
alignment_period = "86400s"
per_series_aligner = "ALIGN_SUM"
}
}
}
}
resource "google_monitoring_alert_policy" "alert_worker_restarts" {
project = "PROJECT_ID"
display_name = "Airflow Worker Restarts"
combiner = "OR"
notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
conditions {
display_name = "Worker container restarts condition"
condition_threshold {
filter = "resource.type = \"k8s_container\" AND (resource.labels.cluster_name = \"CLUSTER_NAME\" AND resource.labels.container_name = monitoring.regex.full_match(\"airflow-worker|base\") AND resource.labels.pod_name = monitoring.regex.full_match(\"airflow-worker-.*|airflow-k8s-worker-.*\")) AND metric.type = \"kubernetes.io/container/restart_count\""
duration = "60s"
comparison = "COMPARISON_GT"
threshold_value = 1
aggregations {
alignment_period = "86400s"
per_series_aligner = "ALIGN_RATE"
}
}
}
}
Tester les règles d'alerte
Cette section explique comment tester les règles d'alerte créées et interpréter les résultats.
Importer un exemple de DAG
L'exemple de DAG memory_consumption_dag.py
fourni dans ce tutoriel imite
de la mémoire des nœuds de calcul. Le DAG contient quatre tâches, chacune des
écrive des données dans un exemple de chaîne, ce qui consomme 380 Mo de mémoire. L'exemple de DAG est programmé pour s'exécuter toutes les deux minutes et commencera à s'exécuter automatiquement une fois que vous l'aurez importé dans votre environnement Composer.
Importez l'exemple de DAG suivant dans l'environnement que vous avez créé lors des étapes précédentes :
from datetime import datetime
import sys
import time
from airflow import DAG
from airflow.operators.python import PythonOperator
def ram_function():
data = ""
start = time.time()
for i in range(38):
data += "a" * 10 * 1000**2
time.sleep(0.2)
print(f"{i}, {round(time.time() - start, 4)}, {sys.getsizeof(data) / (1000 ** 3)}")
print(f"Size={sys.getsizeof(data) / (1000 ** 3)}GB")
time.sleep(30 - (time.time() - start))
print(f"Complete in {round(time.time() - start, 2)} seconds!")
with DAG(
dag_id="memory_consumption_dag",
start_date=datetime(2023, 1, 1, 1, 1, 1),
schedule="1/2 * * * *",
catchup=False,
) as dag:
for i in range(4):
PythonOperator(
task_id=f"task_{i+1}",
python_callable=ram_function,
retries=0,
dag=dag,
)
Interpréter les alertes et les métriques dans Monitoring
Attendez environ 10 minutes après le début de l'exécution de l'exemple de DAG et évaluez résultats du test:
Consultez votre boîte de réception pour vérifier que vous avez bien reçu la notification de la part de "Alertes Google Cloud" dont l'objet commence par
[ALERT]
Le contenu de ce message contient les détails de l'incident lié à la règle d'alerte.Cliquez sur le bouton Afficher l'incident dans la notification par e-mail. Vous êtes redirigé vers l'explorateur de métriques. Examinez les détails des alertes l'incident:
Le graphique des métriques d'incident indique que les métriques que vous avez créées ont dépassé le seuil de 1, c'est-à-dire qu'Airflow a détecté et tué plus d'un zombie tâche.
Dans votre environnement Cloud Composer, accédez à l'onglet Surveillance. Ouvrez la section DAG stats (Statistiques du DAG) et recherchez les Zombie tâches killed (tâches zombies supprimées). graphique:
Le graphique indique qu'Airflow a supprimé environ 20 tâches zombies en seulement pendant les 10 premières minutes d'exécution de l'exemple de DAG.
Selon les benchmarks et les mesures correctives, la raison la plus courante des tâches zombies est le manque de mémoire ou de processeur de nœud de calcul. Identifier l'origine du problème des tâches zombies en analysant l'utilisation des ressources de vos nœuds de calcul.
Ouvrez la section "Nœuds de calcul" dans votre tableau de bord Monitoring et examinez les métriques d'utilisation du processeur et de la mémoire des nœuds de calcul :
Le graphique d'utilisation totale du processeur par les nœuds de calcul indique que l'utilisation du processeur par nœud de calcul était en dessous de 50% de la limite totale disponible en permanence, donc le CPU disponible est suffisant. Le graphique d'utilisation totale de la mémoire des nœuds de calcul montre que l'exécution exemple de DAG a permis d'atteindre la limite de mémoire pouvant être allouée, qui correspond à Près de 75% de la limite de mémoire totale indiquée sur le graphique (GKE réserve 25% des 4 premiers Gio de mémoire et un 100 Mio de mémoire supplémentaires sur chaque nœud pour gérer l'éviction des pods).
Vous pouvez en conclure que les nœuds de calcul n'ont pas les ressources de mémoire nécessaires pour exécuter exemple de DAG avec succès.
Optimiser votre environnement et évaluer ses performances
D'après l'analyse de l'utilisation des ressources des nœuds de calcul, vous devez allouer plus de mémoire à vos nœuds de calcul pour que toutes les tâches de votre DAG réussissent.
Dans votre environnement Composer, ouvrez l'onglet DAG, cliquez sur le nom de l'exemple de DAG (
memory_consumption_dag
), puis sur Suspendre le DAG.Allouez de la mémoire de nœud de calcul supplémentaire:
Dans l'onglet "Configuration de l'environnement", recherchez la section Ressources. > Charges de travail, puis cliquez sur Modifier.
Dans l'élément Nœud de calcul, augmentez la limite de mémoire. Dans ce tutoriel, utilisent 3,25 Go.
Enregistrez les modifications et patientez quelques minutes, le temps que le nœud de calcul redémarre.
Ouvrez l'onglet des DAG, puis cliquez sur le nom de l'exemple de DAG (
memory_consumption_dag
), puis cliquez sur Réactiver le DAG.
Accédez à Surveillance et vérifiez qu'aucune nouvelle tâche zombie n'est apparue après vous mis à jour les limites de ressources de vos nœuds de calcul:
Résumé
Dans ce tutoriel, vous avez découvert les clés de sécurité au niveau de l'environnement des métriques de performances, comment configurer des règles d'alerte pour chaque métrique pour interpréter chaque métrique en mesures correctives. Vous avez ensuite exécuté un exemple de DAG, identifié l'origine des problèmes de santé de l'environnement à l'aide d'alertes et de graphiques de surveillance, et optimisé votre environnement en allouant plus de mémoire à vos nœuds de calcul. Toutefois, il est recommandé optimiser vos DAG de réduire la consommation des ressources des nœuds de calcul, possible d'augmenter les ressources au-delà d'un certain seuil.
Effectuer un nettoyage
Pour éviter que les ressources soient facturées sur votre compte Google Cloud, utilisées dans ce tutoriel, supprimez le projet qui contient les ressources ou conserver le projet et supprimer les ressources individuelles.
Supprimer le projet
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Supprimer des ressources individuelles
Si vous envisagez d'explorer plusieurs tutoriels et guides de démarrage rapide, réutiliser des projets peut vous aider à ne pas dépasser les limites de quotas des projets.
Console
- Supprimez l'environnement Cloud Composer. Vous devez également supprimer le bucket de l'environnement au cours de cette procédure.
- Supprimez chacune des règles d'alerte que vous avez créées dans Cloud Monitoring.
Terraform
- Assurez-vous que votre script Terraform ne contient pas d'entrées pour les ressources toujours requises par votre projet. Par exemple : vous pouvez laisser certaines API activées autorisations toujours attribuées (si vous avez ajouté ce type de définitions à vos script Terraform).
- Exécutez
terraform destroy
. - Supprimez manuellement le bucket de l'environnement. Cloud Composer ne le supprime pas automatiquement. Vous pouvez le faire depuis la console Google Cloud ou Google Cloud CLI.
Étape suivante
- Optimiser les environnements
- Faire évoluer des environnements
- Gérer les libellés d'environnement et répartir les coûts liés à l'environnement