Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1
Cette page décrit les étapes de dépannage, ainsi que des informations sur les problèmes courants liés aux workflows.
De nombreux problèmes d'exécution de DAG sont dus à des performances de l'environnement non optimales. Vous pouvez optimiser votre environnement en suivant le guide Optimiser les performances et les coûts de l'environnement.
Certains problèmes d'exécution de DAG peuvent être dus au fait que le planificateur Airflow ne fonctionne pas correctement ou de manière optimale. Pour résoudre ces problèmes, suivez les instructions de dépannage du planificateur.
Résoudre un problème lié aux workflows
Pour commencer à résoudre les problèmes, procédez comme suit :
Vérifiez les journaux Airflow.
Vous pouvez augmenter le niveau de journalisation d'Airflow en remplaçant l'option de configuration Airflow suivante.
Section Clé Valeur logging
logging_level
La valeur par défaut est INFO
. Définissez la valeur surDEBUG
pour obtenir plus de verbosité dans les messages de journal.Consultez le tableau de bord de surveillance.
Consultez Cloud Monitoring.
Dans la console Google Cloud, recherchez les erreurs sur les pages des composants de votre environnement.
Dans l'interface Web Airflow, recherchez les instances de tâche ayant échoué dans la vue graphique du DAG.
Section Clé Valeur webserver
dag_orientation
LR
,TB
,RL
ouBT
Déboguer des échecs de l'opérateur
Pour déboguer un échec de l'opérateur, procédez comme suit :
- Recherchez les erreurs spécifiques à la tâche.
- Vérifiez les journaux Airflow.
- Consultez Cloud Monitoring.
- Vérifiez les journaux spécifiques à l'opérateur.
- Corrigez les erreurs.
- Importez le DAG dans le dossier
/dags
. - Dans l'interface Web Airflow, effacez les états antérieurs du DAG.
- Relancez ou exécutez le DAG.
Résoudre les problèmes d'exécution des tâches
Airflow est un système distribué avec de nombreuses entités telles que le planificateur, l'exécuteur et les nœuds de calcul qui communiquent entre eux via une file d'attente de tâches et la base de données Airflow, et envoient des signaux (comme SIGTERM). Le diagramme suivant présente une vue d'ensemble des interconnexions entre les composants Airflow.
Dans un système distribué comme Airflow, il peut y avoir des problèmes de connectivité réseau ou l'infrastructure sous-jacente peut rencontrer des problèmes intermittents. Cela peut entraîner des situations où des tâches peuvent échouer et être reprogrammées pour l'exécution, ou où des tâches peuvent ne pas être correctement exécutées (par exemple, des tâches zombies ou des tâches bloquées lors de l'exécution). Airflow dispose de mécanismes pour gérer ces situations et reprendre automatiquement le fonctionnement normal. Les sections suivantes expliquent les problèmes courants qui surviennent lors de l'exécution des tâches par Airflow : tâches zombies, instance d'arrêt et signaux SIGTERM.
Résoudre les problèmes liés aux tâches zombie
Airflow détecte deux types de non-correspondance entre une tâche et un processus qui l'exécute:
Les tâches zombie sont des tâches qui sont censées s'exécuter, mais qui ne le font pas. Cela peut se produire si le processus de la tâche a été arrêté ou ne répond pas, si le nœud de calcul Airflow n'a pas signalé l'état de la tâche à temps, car il est surchargé, ou si la VM où la tâche est exécutée a été arrêtée. Airflow recherche régulièrement ces tâches et échoue ou les relance, en fonction de leurs paramètres.
Découvrir les tâches zombies
resource.type="cloud_composer_environment" resource.labels.environment_name="ENVIRONMENT_NAME" log_id("airflow-scheduler") textPayload:"Detected zombie job"
Les tâches fantômes sont des tâches qui ne sont pas censées s'exécuter. Airflow recherche régulièrement ces tâches et les arrête.
Les sections suivantes décrivent les raisons et les solutions les plus courantes pour les tâches zombies.
Le nœud de calcul Airflow est à court de mémoire
Chaque nœud de calcul Airflow peut exécuter jusqu'à [celery]worker_concurrency
instances de tâche simultanément. Si la consommation cumulative de mémoire de ces instances de tâche dépasse la limite de mémoire d'un nœud de calcul Airflow, un processus aléatoire sur celui-ci est arrêté pour libérer des ressources.
Parfois, le manque de mémoire sur un nœud de calcul Airflow peut entraîner l'envoi de paquets mal formés lors d'une session SQL Alchemy à la base de données, à un serveur DNS ou à tout autre service appelé par un DAG. Dans ce cas, l'autre extrémité de la connexion peut rejeter ou abandonner les connexions de l'agent Airflow. Exemple :
"UNKNOWN:Error received from peer
{created_time:"2024-11-31T10:09:52.217738071+00:00", grpc_status:14,
grpc_message:"failed to connect to all addresses; last error: UNKNOWN:
ipv4:<ip address>:443: handshaker shutdown"}"
Solutions:
Optimisez les tâches pour qu'elles utilisent moins de mémoire, par exemple en évitant le code de niveau supérieur.
Réduire
[celery]worker_concurrency
.Augmentez la mémoire pour les nœuds de calcul Airflow afin de prendre en charge les modifications
[celery]worker_concurrency
.
Nœud de calcul Airflow évincé
Les évictions de pods font partie intégrante de l'exécution des charges de travail sur Kubernetes. GKE évince les pods s'ils ont manqué d'espace de stockage ou pour libérer des ressources pour les charges de travail de priorité supérieure.
Solutions:
- Si une éviction est causée par un manque d'espace de stockage, vous pouvez réduire l'utilisation de l'espace de stockage ou supprimer les fichiers temporaires dès qu'ils ne sont plus nécessaires.
Vous pouvez également augmenter l'espace de stockage disponible ou exécuter des charges de travail dans un pod dédié avec
KubernetesPodOperator
.
Le nœud de calcul Airflow a été arrêté
Les nœuds de calcul Airflow peuvent être supprimés en externe. Si les tâches en cours d'exécution ne se terminent pas pendant la période d'arrêt correct, elles sont interrompues et peuvent être détectées comme des zombies.
Scénarios et solutions possibles:
Les nœuds de calcul Airflow sont redémarrés lors des modifications de l'environnement, telles que les mises à niveau ou l'installation de packages:
Découvrir les modifications apportées à l'environnement Composer
resource.type="cloud_composer_environment" resource.labels.environment_name="ENVIRONMENT_NAME" log_id("cloudaudit.googleapis.com%2Factivity")
Vous pouvez effectuer ces opérations lorsqu'aucune tâche critique n'est en cours d'exécution ou activer les nouvelles tentatives de tâches.
Divers composants peuvent être temporairement indisponibles pendant les opérations de maintenance.
Vous pouvez spécifier des intervalles de maintenance pour réduirese chevauche avec l'exécution des tâches critiques.
Le nœud de calcul Airflow était soumis à une charge importante
La quantité de ressources processeur et de mémoire disponibles pour un nœud de calcul Airflow est limitée par la configuration de l'environnement. Si l'utilisation des ressources se rapproche des limites, cela peut entraîner une contention de ressources et des retards inutiles lors de l'exécution de la tâche. Dans les situations extrêmes, lorsque les ressources sont insuffisantes pendant de longues périodes, cela peut entraîner des tâches zombies.
Solutions:
- Surveillez l'utilisation du processeur et de la mémoire des nœuds de calcul et ajustez-la pour éviter de dépasser 80%.
La base de données Airflow était soumise à une charge importante
Une base de données est utilisée par divers composants Airflow pour communiquer entre eux et, en particulier, pour stocker les battements de cœur des instances de tâche. Le manque de ressources dans la base de données entraîne des temps de requête plus longs et peut affecter l'exécution des tâches.
Parfois, les erreurs suivantes sont présentes dans les journaux d'un nœud de calcul Airflow:
(psycopg2.OperationalError) connection to server at <IP address>,
port 3306 failed: server closed the connection unexpectedly
This probably means the server terminated abnormally before or while
processing the request.
Solutions:
- Évitez d'utiliser de nombreuses instructions
Variables.get
dans votre code DAG de niveau supérieur. Utilisez plutôt des modèles Jinja pour récupérer les valeurs des variables Airflow. - Optimisez (réduisez) l'utilisation des instructions xcom_push et xcom_pull dans les modèles Jinja dans le code DAG de niveau supérieur.
- Envisagez de passer à une taille d'environnement plus importante (moyenne ou grande).
- Réduire le nombre de programmeurs
- Réduisez la fréquence d'analyse des DAG.
- Surveillez l'utilisation de processeur et de mémoire de la base de données.
La base de données Airflow était temporairement indisponible
Un nœud de calcul Airflow peut mettre du temps à détecter et à gérer correctement les erreurs intermittentes, telles que les problèmes de connectivité temporaires. Il peut dépasser le seuil de détection des zombies par défaut.
Découvrir les délais avant expiration des pulsations d'Airflow
resource.type="cloud_composer_environment" resource.labels.environment_name="ENVIRONMENT_NAME" log_id("airflow-worker") textPayload:"Heartbeat time limit exceeded"
Solutions:
Augmentez le délai avant expiration des tâches zombies et remplacez la valeur de l'option de configuration Airflow
[scheduler]scheduler_zombie_task_threshold
:Section Clé Valeur Remarques scheduler
scheduler_zombie_task_threshold
Nouveau délai avant expiration (en secondes) La valeur par défaut est 300
.
Résoudre les problèmes de terminaison d'une instance
Airflow utilise le mécanisme d'instance de fin pour arrêter les tâches Airflow. Ce mécanisme est utilisé dans les situations suivantes:
- Lorsqu'un planificateur met fin à une tâche qui n'a pas été terminée à temps.
- Lorsqu'une tâche expire ou est exécutée pendant trop longtemps.
Lorsque Airflow met fin aux instances de tâche, les entrées de journal suivantes s'affichent dans les journaux d'un nœud de calcul Airflow qui a exécuté la tâche:
INFO - Subtask ... WARNING - State of this instance has been externally set
to success. Terminating instance.
INFO - Subtask ... INFO - Sending Signals.SIGTERM to GPID <X>
INFO - Subtask ... ERROR - Received SIGTERM. Terminating subprocesses.
Solutions possibles:
Vérifiez le code de la tâche pour détecter les erreurs susceptibles de l'exécuter trop longtemps.
Augmentez le processeur et la mémoire des nœuds de calcul Airflow pour que les tâches s'exécutent plus rapidement.
Augmentez la valeur de l'option de configuration Airflow
[celery_broker_transport_options]visibility-timeout
.Par conséquent, le planificateur attend plus longtemps qu'une tâche soit terminée avant de la considérer comme une tâche zombie. Cette option est particulièrement utile pour les tâches longues qui durent plusieurs heures. Si la valeur est trop faible (par exemple, trois heures), le planificateur considère les tâches exécutées pendant cinq ou six heures comme "bloquées" (tâches zombies).
Augmentez la valeur de l'option de configuration Airflow
[core]killed_task_cleanup_time
.Une valeur plus élevée permet aux nœuds de calcul Airflow de terminer leurs tâches de manière élégante. Si la valeur est trop faible, les tâches Airflow peuvent être interrompues brusquement, sans avoir le temps de terminer leur travail correctement.
Résoudre les problèmes liés aux signaux SIGTERM
Les signaux SIGTERM sont utilisés par Linux, Kubernetes, le planificateur Airflow et Celery pour arrêter les processus chargés d'exécuter des nœuds de calcul Airflow ou des tâches Airflow.
Plusieurs raisons peuvent expliquer l'envoi de signaux SIGTERM dans un environnement:
Une tâche est devenue une tâche zombie et doit être arrêtée.
Le planificateur a détecté un doublon d'une tâche et envoie à la tâche les signaux "Terminating instance" (Instance en cours d'arrêt) et SIGTERM pour l'arrêter.
Dans l'autoscaling horizontal des pods, le plan de contrôle GKE envoie des signaux SIGTERM pour supprimer les pods qui ne sont plus nécessaires.
Le planificateur peut envoyer des signaux SIGTERM au processus DagFileProcessorManager. Ces signaux SIGTERM sont utilisés par le planificateur pour gérer le cycle de vie du processus DagFileProcessorManager et peuvent être ignorés en toute sécurité.
Exemple :
Launched DagFileProcessorManager with pid: 353002 Sending Signals.SIGTERM to group 353002. PIDs of all processes in the group: [] Sending the signal Signals.SIGTERM to group 353002 Sending the signal Signals.SIGTERM to process 353002 as process group is missing.
Condition de course entre le rappel de battement de cœur et les rappels de sortie dans local_task_job, qui surveille l'exécution de la tâche. Si le heartbeat détecte qu'une tâche a été marquée comme réussie, il ne peut pas distinguer si la tâche elle-même a réussi ou si Airflow a été invité à considérer la tâche comme réussie. Toutefois, il arrête un exécuteur de tâches, sans attendre qu'il se ferme.
Vous pouvez ignorer ces signaux SIGTERM. La tâche est déjà à l'état "Réussite" et l'exécution de l'exécution du DAG dans son ensemble ne sera pas affectée.
L'entrée de journal
Received SIGTERM.
est la seule différence entre la sortie normale et l'arrêt de la tâche dans l'état "success" (réussite).Un composant Airflow utilise plus de ressources (processeur, mémoire) que le nœud du cluster ne le permet.
Le service GKE effectue des opérations de maintenance et envoie des signaux SIGTERM aux pods exécutés sur un nœud sur le point d'être mis à niveau.
Lorsqu'une instance de tâche est arrêtée avec SIGTERM, les entrées de journal suivantes s'affichent dans les journaux d'un nœud de calcul Airflow qui a exécuté la tâche:
{local_task_job.py:211} WARNING - State of this instance has been externally set to queued. Terminating instance. {taskinstance.py:1411} ERROR - Received SIGTERM. Terminating subprocesses. {taskinstance.py:1703} ERROR - Task failed with exception
Solutions possibles:
Ce problème se produit lorsqu'une VM qui exécute la tâche est à court de mémoire. Cela n'a pas de rapport avec les configurations Airflow, mais avec la quantité de mémoire disponible pour la VM.
Dans Cloud Composer 3, vous pouvez attribuer davantage de ressources de processeur et de mémoire aux nœuds de calcul Airflow.
Vous pouvez réduire la valeur de l'option de configuration Airflow de la concurrence
[celery]worker_concurrency
. Cette option détermine le nombre de tâches exécutées simultanément par un nœud de calcul Airflow donné.
Pour en savoir plus sur l'optimisation de votre environnement, consultez la section Optimiser les performances et les coûts de l'environnement.
Impact des opérations de mise à jour ou de mise à niveau sur les exécutions de tâches Airflow
Les opérations de mise à jour ou de mise à niveau interrompent les tâches Airflow en cours d'exécution, sauf si une tâche est exécutée en mode différable.
Nous vous recommandons d'effectuer ces opérations lorsque vous prévoyez un impact minimal sur les exécutions de tâches Airflow et de configurer des mécanismes de nouvelle tentative appropriés dans vos DAG et tâches.
Résoudre les problèmes liés aux tâches KubernetesExecutor
CeleryKubernetesExecutor est un type d'exécuteur dans Cloud Composer 3 qui peut utiliser CeleryExecutor et KubernetesExecutor en même temps.
Pour en savoir plus sur le dépannage des tâches exécutées avec KubernetesExecutor, consultez la page Utiliser CeleryKubernetesExecutor.
Problèmes courants
Les sections suivantes décrivent les symptômes et les correctifs potentiels de certains problèmes courants liés aux DAG.
La tâche Airflow a été interrompue par Negsignal.SIGKILL
Il est possible que votre tâche utilise plus de mémoire que celle allouée au nœud de calcul Airflow.
Dans ce cas, il peut être interrompu par Negsignal.SIGKILL
. Le système envoie ce signal pour éviter une consommation de mémoire supplémentaire qui pourrait affecter l'exécution d'autres tâches Airflow. L'entrée de journal suivante peut s'afficher dans le journal du worker Airflow:
{local_task_job.py:102} INFO - Task exited with return code Negsignal.SIGKILL
Negsignal.SIGKILL
peut également s'afficher sous la forme de code -9
.
Solutions possibles:
Réduire le
worker_concurrency
des nœuds de calcul Airflow.Augmentez la quantité de mémoire disponible pour les nœuds de calcul Airflow.
Gérez les tâches gourmandes en ressources dans Cloud Composer à l'aide de KubernetesPodOperator ou de GKEStartPodOperator pour l'isolation des tâches et l'allocation personnalisée des ressources.
Optimisez vos tâches pour utiliser moins de mémoire.
La tâche échoue sans émettre de journaux en raison d'erreurs d'analyse du DAG
Il peut parfois y avoir des erreurs DAG subtiles qui font que le planificateur Airflow peut planifier l'exécution de tâches, que le processeur DAG peut analyser le fichier DAG, mais que le nœud de calcul Airflow ne parvient pas à exécuter les tâches du DAG en raison d'erreurs de programmation dans le fichier DAG. Cela peut entraîner une situation où une tâche Airflow est marquée comme Failed
et qu'aucun journal de son exécution n'est disponible.
Solutions :
Dans les journaux des nœuds de calcul Airflow, vérifiez qu'aucun nœud de calcul Airflow n'a généré d'erreurs liées à un DAG manquant ou à des erreurs d'analyse de DAG.
Augmentation des paramètres liés à l'analyse des DAG:
Augmentez dagbag-import-timeout à au moins 120 secondes (ou plus, si nécessaire).
Augmentez dag-file-processor-timeout à au moins 180 secondes (ou plus, si nécessaire). Cette valeur doit être supérieure à
dagbag-import-timeout
.
Consultez également Inspecter les journaux du processeur DAG.
La tâche échoue sans émettre de journaux en raison de la pression sur les ressources
Symptôme: lors de l'exécution d'une tâche, le sous-processus du nœud de calcul Airflow responsable de l'exécution de la tâche Airflow est interrompu brusquement. L'erreur visible dans le journal du nœud de calcul Airflow peut ressembler à celle ci-dessous:
...
File "/opt/python3.8/lib/python3.8/site-packages/celery/app/trace.py", line 412, in trace_task R = retval = fun(*args, **kwargs) File "/opt/python3.8/lib/python3.8/site-packages/celery/app/trace.py", line 704, in __protected_call__ return self.run(*args, **kwargs) File "/opt/python3.8/lib/python3.8/site-packages/airflow/executors/celery_executor.py", line 88, in execute_command _execute_in_fork(command_to_exec) File "/opt/python3.8/lib/python3.8/site-packages/airflow/executors/celery_executor.py", line 99, in _execute_in_fork
raise AirflowException('Celery command failed on host: ' + get_hostname())airflow.exceptions.AirflowException: Celery command failed on host: airflow-worker-9qg9x
...
Solution :
Dans Cloud Composer 3, augmentez les limites de mémoire pour les nœuds de calcul Airflow.
Si votre environnement génère également des tâches zombies, consultez la section Dépannage des tâches zombies.
Pour obtenir un tutoriel sur le débogage des problèmes de mémoire insuffisante, consultez la section Déboguer les problèmes de mémoire insuffisante et de stockage insuffisant dans les DAG.
La tâche échoue sans émettre de journaux en raison de l'éviction du pod
Les pods Google Kubernetes Engine sont soumis au cycle de vie des pods Kubernetes et à l'éviction des pods. Les pics de tâches sont la cause la plus courante d'éviction de pods dans Cloud Composer.
L'éviction des pods peut se produire lorsqu'un pod particulier utilise trop de ressources sur un nœud, par rapport aux attentes de consommation de ressources configurées pour le nœud. Par exemple, l'éviction peut se produire lorsque plusieurs tâches gourmandes en mémoire sont exécutées dans un pod et que leur charge combinée entraîne le dépassement de la limite de consommation de mémoire pour le pod.
Si un pod de nœud de calcul Airflow est évincé, toutes les instances de tâche qui y sont exécutées sont interrompues, puis marquées comme ayant échoué par Airflow.
Les journaux sont mis en mémoire tampon. Si un pod de nœuds de calcul est évincé avant la purge du tampon, les journaux ne sont pas envoyés. L'échec de la tâche sans journaux indique que les nœuds de calcul Airflow sont redémarrés en raison d'une mémoire saturée (OOM, Out Of Memory). Certains journaux peuvent être présents dans Cloud Logging, même si les journaux Airflow n'ont pas été envoyés.
Pour afficher les journaux :
Dans la console Google Cloud, accédez à la page Environnements.
Dans la liste des environnements, cliquez sur le nom de votre environnement. La page Détails de l'environnement s'ouvre.
Accédez à l'onglet Journaux.
Consultez les journaux de chaque nœud de calcul Airflow sous Tous les journaux > Journaux Airflow > Nœuds de calcul.
Solution :
Augmentez les limites de mémoire pour les nœuds de calcul Airflow.
Assurez-vous que les tâches du DAG sont idempotentes et récupérables.
Évitez de télécharger des fichiers inutiles dans le système de fichiers local des nœuds de calcul Airflow.
La capacité du système de fichiers local des nœuds de calcul Airflow est limitée. Un nœud de calcul Airflow peut disposer de 1 Go à 10 Go d'espace de stockage. Lorsque l'espace de stockage est épuisé, le pod de nœud de calcul Airflow est supprimé par le plan de contrôle GKE. Toutes les tâches exécutées par le worker éjecté échouent.
Exemples d'opérations problématiques:
- Téléchargement de fichiers ou d'objets et stockage local dans un worker Airflow. Stockez plutôt ces objets directement dans un service approprié, tel qu'un bucket Cloud Storage.
- Accéder à de grands objets dans le dossier
/data
à partir d'un nœud de calcul Airflow. L'agent Airflow télécharge l'objet dans son système de fichiers local. Implémentez plutôt vos DAG afin que les fichiers volumineux soient traités en dehors du pod de nœuds de calcul Airflow.
Délai avant expiration de l'importation du chargement DAG
Symptôme :
- Dans l'interface Web Airflow, en haut de la page de la liste des DAG, une zone d'alerte rouge indique
Broken DAG: [/path/to/dagfile] Timeout
. Dans Cloud Monitoring: les journaux
airflow-scheduler
contiennent des entrées semblables aux suivantes:ERROR - Process timed out
ERROR - Failed to import: /path/to/dagfile
AirflowTaskTimeout: Timeout
Correctif :
Remplacez l'option de configuration Airflow dag_file_processor_timeout
et allouez plus de temps à l'analyse du DAG:
Section | Clé | Valeur |
---|---|---|
core |
dag_file_processor_timeout |
Nouvelle valeur du délai |
L'exécution du DAG ne se termine pas dans le délai prévu
Symptôme :
Parfois, une exécution de DAG ne se termine pas, car les tâches Airflow se bloquent et l'exécution du DAG dure plus longtemps que prévu. Dans des conditions normales, les tâches Airflow ne restent pas indéfiniment dans l'état "en file d'attente" ou "en cours d'exécution", car Airflow dispose de procédures de nettoyage et de délai avant expiration qui permettent d'éviter cette situation.
Correctif :
Utilisez le paramètre
dagrun_timeout
pour les DAG. Par exemple :dagrun_timeout=timedelta(minutes=120)
. Par conséquent, chaque exécution de DAG doit être terminée avant l'expiration du délai d'exécution du DAG. Les tâches non terminées sont marquées commeFailed
ouUpstream Failed
. Pour en savoir plus sur les états des tâches Airflow, consultez la documentation Apache Airflow.Utilisez le paramètre Délai d'exécution des tâches pour définir un délai par défaut pour les tâches exécutées en fonction des opérateurs Apache Airflow.
Les exécutions de DAG ne sont pas exécutées
Symptôme :
Lorsque la date de planification d'un DAG est définie de manière dynamique, cela peut entraîner divers effets secondaires inattendus. Exemple :
L'exécution d'un DAG est toujours à venir, et le DAG n'est jamais exécuté.
Les exécutions DAG précédentes sont marquées comme exécutées et réussies, même si elles ne l'ont pas été.
Pour en savoir plus, consultez la documentation Apache Airflow.
Solutions possibles:
Suivez les recommandations de la documentation Apache Airflow.
Définissez un
start_date
statique pour les DAG. Vous pouvez également utilisercatchup=False
pour désactiver l'exécution du DAG pour les dates passées.Évitez d'utiliser
datetime.now()
oudays_ago(<number of days>)
, sauf si vous connaissez les effets secondaires de cette approche.
Augmentation du trafic réseau vers et depuis la base de données Airflow
La quantité de trafic réseau entre le cluster GKE de votre environnement et la base de données Airflow dépend du nombre de DAG, du nombre de tâches dans les DAG et de la manière dont les DAG accèdent aux données de la base de données Airflow. Les facteurs suivants peuvent influencer l'utilisation du réseau :
Requêtes envoyées à la base de données Airflow. Si vos DAG effectuent de nombreuses requêtes, ils génèrent une grande quantité de trafic. Exemples : vérifier l'état des tâches avant de poursuivre avec d'autres tâches, interroger la table XCom, créer un vidage du contenu de la base de données Airflow.
Grand nombre de tâches. Plus le nombre de tâches à planifier est élevé, plus du trafic réseau est généré. Ces considérations s'appliquent au nombre total de tâches dans vos DAG et à la fréquence de planification. Lorsque le programmeur Airflow planifie l'exécution du DAG, il envoie des requêtes à la base de données Airflow et génère du trafic.
L'interface Web Airflow génère du trafic réseau, car elle envoie des requêtes à la base de données Airflow. L'utilisation intensive de pages avec des graphiques, des tâches et des schémas peut générer de gros volumes de trafic réseau.
Le DAG bloque le serveur Web Airflow ou lui fait renvoyer une erreur "502 gateway timeout"
Des défaillances du serveur Web peuvent survenir pour plusieurs raisons. Consultez les journaux airflow-webserver dans Cloud Logging pour déterminer la cause de l'erreur 502 gateway timeout
.
Gérer un grand nombre de DAG et de plug-ins dans des dossiers DAG et plug-ins
Le contenu des dossiers /dags
et /plugins
est synchronisé à partir du bucket de votre environnement vers les systèmes de fichiers locaux des nœuds de calcul et des planificateurs Airflow.
Plus les données stockées dans ces dossiers sont nombreuses, plus la synchronisation prend du temps. Pour résoudre ce problème:
Limitez le nombre de fichiers dans les dossiers
/dags
et/plugins
. Ne stockez que le nombre minimal de fichiers requis.Augmentez l'espace disque disponible pour les programmeurs et les nœuds de calcul Airflow.
Augmentez le processeur et la mémoire des planificateurs et des nœuds de calcul Airflow afin que l'opération de synchronisation soit effectuée plus rapidement.
En cas de très grand nombre de DAG, divisez-les en lots, compressez-les dans des archives ZIP et déployez ces archives dans le dossier
/dags
. Cette approche accélère le processus de synchronisation des DAG. Les composants Airflow décompressent les archives ZIP avant de traiter les DAG.La génération de DAG de manière programmatique peut également être une méthode permettant de limiter le nombre de fichiers DAG stockés dans le dossier
/dags
. Consultez la section sur les DAG programmatiques pour éviter les problèmes de planification et d'exécution des DAG générés par programmation.
Ne planifiez pas les DAG générés de manière programmatique en même temps.
Générer des objets DAG de manière programmatique à partir d'un fichier DAG est une méthode efficace pour créer de nombreux DAG similaires qui ne présentent que de légères différences.
Il est important de ne pas planifier l'exécution de tous ces DAG immédiatement. Il est fort probable que les nœuds de calcul Airflow ne disposent pas de suffisamment de ressources de processeur et de mémoire pour exécuter toutes les tâches planifiées en même temps.
Pour éviter les problèmes de planification des DAG programmatiques:
- Augmentez la simultanéité des nœuds de calcul et faites évoluer votre environnement afin qu'il puisse exécuter plus de tâches simultanément.
- Générez des DAG de manière à répartir leurs planifications de manière uniforme au fil du temps, afin d'éviter de planifier des centaines de tâches en même temps, ce qui permet aux nœuds de calcul Airflow d'avoir le temps d'exécuter toutes les tâches planifiées.
Erreur 504 lors de l'accès au serveur Web Airflow
Consultez Erreur 504 lors de l'accès à l'interface utilisateur d'Airflow.
L'exception "perte de connexion au serveur Postgres pendant la requête" est générée pendant l'exécution de la tâche ou juste après
Les exceptions Lost connection to Postgres server during query
se produisent souvent lorsque les conditions suivantes sont remplies:
- Votre DAG utilise
PythonOperator
ou un opérateur personnalisé. - Votre DAG envoie des requêtes à la base de données Airflow.
Si plusieurs requêtes sont effectuées à partir d'une fonction appelable, les traces peuvent pointer vers la ligne self.refresh_from_db(lock_for_update=True)
dans le code Airflow de manière incorrecte car il s'agit de la première requête de base de données après l'exécution de la tâche. La cause réelle de l'exception se produit avant, lorsqu'une session SQLAlchemy n'est pas correctement fermée.
Les sessions SQLAlchemy s'appliquent à un thread et sont créées dans une session de fonction appelable qui peut ensuite être prolongée dans le code Airflow. S'il existe des délais importants entre les requêtes au sein d'une même session, la connexion a peut-être déjà été fermée par le serveur Postgres. Le délai avant expiration de la connexion dans les environnements Cloud Composer est d'environ 10 minutes.
Solution :
- Utilisez le décorateur
airflow.utils.db.provide_session
. Ce décorateur fournit une session valide à la base de données Airflow dans le paramètresession
et ferme correctement la session à la fin de la fonction. - N'utilisez pas une seule fonction de longue durée. Déplacez plutôt toutes les requêtes de base de données vers des fonctions distinctes, afin qu'il existe plusieurs fonctions avec le décorateur
airflow.utils.db.provide_session
. Dans ce cas, les sessions sont automatiquement fermées après la récupération des résultats de la requête.
Contrôler le temps d'exécution des DAG, des tâches et des exécutions parallèles du même DAG
Si vous souhaitez contrôler la durée d'exécution d'un DAG particulier, vous pouvez utiliser le paramètre DAG dagrun_timeout
. Par exemple, si vous prévoyez qu'une seule exécution de DAG (que l'exécution se termine par un succès ou un échec) ne doit pas durer plus d'une heure, définissez ce paramètre sur 3 600 secondes.
Vous pouvez également contrôler la durée d'exécution d'une seule tâche Airflow. Pour ce faire, vous pouvez utiliser execution_timeout
.
Si vous souhaitez contrôler le nombre d'exécutions de DAG actives pour un DAG particulier, vous pouvez utiliser l'option de configuration Airflow [core]max-active-runs-per-dag
.
Si vous ne souhaitez exécuter qu'une seule instance d'un DAG à un moment donné, définissez le paramètre max-active-runs-per-dag
sur 1
.
Problèmes affectant la synchronisation des DAG et des plug-ins avec les planificateurs, les nœuds de calcul et les serveurs Web
Cloud Composer synchronise le contenu des dossiers /dags
et /plugins
avec les planificateurs et les nœuds de calcul. Certains objets dans les dossiers /dags
et /plugins
peuvent empêcher cette synchronisation de fonctionner correctement ou la ralentir.
Le dossier
/dags
est synchronisé avec les planificateurs et les nœuds de calcul.Ce dossier n'est pas synchronisé avec le serveur Web.
Le dossier
/plugins
est synchronisé avec les planificateurs, les nœuds de calcul et les serveurs Web.
Vous pouvez rencontrer les problèmes suivants:
Vous avez importé des fichiers compressés au format gzip qui utilisent le transcodage de compression dans les dossiers
/dags
et/plugins
. Cela se produit généralement si vous utilisez l'indicateur--gzip-local-all
dans une commandegcloud storage cp
pour importer des données dans le bucket.Solution: Supprimez l'objet qui utilisait le transcodage de compression, puis réimportez-le dans le bucket.
L'un des objets est nommé ".". Un tel objet n'est pas synchronisé avec les planificateurs et les nœuds de calcul, et il peut cesser de se synchroniser complètement.
Solution: Renommez l'objet.
Un dossier et un fichier Python de DAG portent le même nom, par exemple
a.py
. Dans ce cas, le fichier DAG n'est pas correctement synchronisé avec les composants Airflow.Solution: Supprimez le dossier portant le même nom que le fichier Python du DAG.
L'un des objets des dossiers
/dags
ou/plugins
contient un symbole/
à la fin du nom de l'objet. Ces objets peuvent interférer avec le processus de synchronisation, car le symbole/
signifie qu'un objet est un dossier, et non un fichier.Solution: Supprimez le symbole
/
du nom de l'objet problématique.Ne stockez pas de fichiers inutiles dans les dossiers
/dags
et/plugins
.Parfois, les DAG et les plug-ins que vous implémentez sont fournis avec des fichiers supplémentaires, tels que des fichiers qui stockent des tests pour ces composants. Ces fichiers sont synchronisés avec les nœuds de calcul et les planificateurs, et ont un impact sur le temps nécessaire pour les copier sur les planificateurs, les nœuds de calcul et les serveurs Web.
Solution: Ne stockez pas de fichiers supplémentaires et inutiles dans les dossiers
/dags
et/plugins
.
Terminé [Errno 21] Est un répertoire : l'erreur '/home/airflow/gcs/dags/...' est générée par les planificateurs et les nœuds de calcul
Ce problème se produit, car les objets peuvent avoir un espace de noms qui se chevauche dans Cloud Storage, tandis que les planificateurs et les travailleurs utilisent des systèmes de fichiers traditionnels. Par exemple, vous pouvez ajouter un dossier et un objet portant le même nom au bucket d'un environnement. Lorsque le bucket est synchronisé avec les planificateurs et les nœuds de calcul de l'environnement, cette erreur est générée, ce qui peut entraîner l'échec des tâches.
Pour résoudre ce problème, assurez-vous qu'il n'y a pas d'espaces de noms qui se chevauchent dans le bucket de l'environnement. Par exemple, si /dags/misc
(un fichier) et /dags/misc/example_file.txt
(un autre fichier) se trouvent dans un bucket, une erreur est générée par le planificateur.
Interruptions temporaires lors de la connexion à la base de données de métadonnées Airflow
Cloud Composer s'exécute sur une infrastructure distribuée. Cela signifie que de temps en temps, des problèmes temporaires peuvent apparaître et interrompre l'exécution de vos tâches Airflow.
Dans ce cas, les messages d'erreur suivants peuvent s'afficher dans les journaux des nœuds de calcul Airflow:
"Can't connect to Postgres server on 'airflow-sqlproxy-service.default.svc.cluster.local' (111)"
ou
"Can't connect to Postgres server on 'airflow-sqlproxy-service.default.svc.cluster.local' (104)"
De tels problèmes intermittents peuvent également être causés par des opérations de maintenance effectuées pour vos environnements Cloud Composer.
En général, ces erreurs sont intermittentes. Si vos tâches Airflow sont idempotentes et que vous avez configuré des nouvelles tentatives, elles ne vous affectent pas. Vous pouvez également définir des intervalles de maintenance.
Un autre facteur pouvant entraîner ces erreurs est le manque de ressources dans le cluster de votre environnement. Dans ce cas, vous pouvez faire évoluer ou optimiser votre environnement, comme décrit dans les instructions Évoluer les environnements ou Optimiser votre environnement.
Une exécution DAG est marquée comme réussie, mais aucune tâche n'a été exécutée
Si une execution_date
d'exécution de DAG est antérieure à la start_date
du DAG, vous pouvez voir des exécutions de DAG qui n'ont pas d'exécutions de tâches, mais qui sont toujours marquées comme réussies.
Cause
Cette situation peut se produire dans l'un des cas suivants:
Une incohérence est causée par la différence de fuseau horaire entre
execution_date
etstart_date
du DAG. Cela peut se produire, par exemple, lorsque vous utilisezpendulum.parse(...)
pour définirstart_date
.Le
start_date
du DAG est défini sur une valeur dynamique, par exempleairflow.utils.dates.days_ago(1)
.
Solution
Assurez-vous que
execution_date
etstart_date
utilisent le même fuseau horaire.Spécifiez un
start_date
statique et combinez-le aveccatchup=False
pour éviter d'exécuter des DAG avec des dates de début passées.
Un DAG n'est pas visible dans l'UI d'Airflow ni dans l'UI du DAG, et le planificateur ne le planifie pas
Le processeur DAG analyse chaque DAG avant qu'il ne puisse être planifié par le planificateur et avant qu'un DAG ne devienne visible dans l'interface utilisateur d'Airflow ou dans l'interface utilisateur du DAG.
Les options de configuration Airflow suivantes définissent les délais avant expiration pour l'analyse des DAG:
[core]dagrun_import_timeout
définit le temps dont le processeur DAG a besoin pour analyser un seul DAG.[core]dag_file_processor_timeout
définit la durée totale que le processeur DAG peut passer à analyser tous les DAG.
Si un DAG n'est pas visible dans l'interface utilisateur d'Airflow ou de DAG:
Vérifiez les journaux du processeur DAG pour voir s'il est en mesure de traiter correctement votre DAG. En cas de problème, les entrées de journal suivantes peuvent s'afficher dans les journaux du processeur DAG ou du planificateur:
[2020-12-03 03:06:45,672] {dag_processing.py:1334} ERROR - Processor for /usr/local/airflow/dags/example_dag.py with PID 21903 started at 2020-12-03T03:05:55.442709+00:00 has timed out, killing it.
Vérifiez les journaux du planificateur pour voir s'il fonctionne correctement. En cas de problème, les entrées de journal suivantes peuvent s'afficher dans les journaux du planificateur:
DagFileProcessorManager (PID=732) last sent a heartbeat 240.09 seconds ago! Restarting it Process timed out, PID: 68496
Solutions:
Corrigez toutes les erreurs d'analyse DAG. Le processeur DAG analyse plusieurs DAG. Dans de rares cas, les erreurs d'analyse d'un DAG peuvent avoir un impact négatif sur l'analyse d'autres DAG.
Si l'analyse de votre DAG prend plus de secondes que celles définies dans
[core]dagrun_import_timeout
, augmentez ce délai avant expiration.Si l'analyse de tous vos DAG prend plus de secondes que celles définies dans
[core]dag_file_processor_timeout
, augmentez ce délai avant expiration.Si l'analyse de votre DAG prend beaucoup de temps, cela peut également signifier qu'il n'est pas implémenté de manière optimale. Par exemple, s'il lit de nombreuses variables d'environnement ou effectue des appels à des services externes ou à la base de données Airflow. Dans la mesure du possible, évitez d'effectuer de telles opérations dans les sections globales des DAG.
Augmentez les ressources de processeur et de mémoire du processeur DAG pour qu'il puisse travailler plus rapidement.
Symptômes d'une charge importante sur la base de données Airflow
Pour en savoir plus, consultez la section Symptômes de la pression de charge sur la base de données Airflow.
Étape suivante
- Résoudre les problèmes liés à l'installation d'un package PyPI
- Résoudre les problèmes liés aux mises à jour et aux mises à niveau d'environnement