Afficher les journaux Airflow

Cette page explique comment accéder aux journaux Apache Airflow pour Cloud Composer et les afficher.

Types de journaux

Cloud Composer inclut les journaux Airflow suivants :

  • Journaux Airflow : ces journaux sont associés à des tâches DAG uniques. Vous pouvez afficher les journaux des tâches dans le dossier Cloud Storage logs associé à l'environnement Cloud Composer. Vous pouvez également consulter les journaux dans l'interface Web Airflow.
  • Journaux de streaming : ces journaux constituent un sur-ensemble des journaux dans Airflow. Pour accéder aux journaux de streaming, utilisez la visionneuse de journaux de Cloud Logging dans Google Cloud Console ou utilisez Cloud Monitoring.

    Vous pouvez également utiliser des métriques basées sur les journaux dans Cloud Monitoring pour définir des règles d'alerte, par exemple pour vérifier l'état de votre environnement Cloud Composer. Les quotas de Logging et Monitoring sont applicables. Pour en savoir plus sur Cloud Logging et Cloud Monitoring pour votre environnement Cloud Composer, consultez la section Surveiller des environnements avec Cloud Monitoring.

Journaux dans Cloud Storage

Lorsque vous créez un environnement, Cloud Composer crée un bucket Cloud Storage et l'associe à votre environnement. Cloud Composer stocke les journaux des tâches DAG uniques dans le dossier logs du bucket. Pour connaître le nom du bucket, consultez la section Déterminer le nom du bucket de stockage.

Structure des répertoires du dossier des journaux

Le dossier logs inclut des sous-dossiers pour chaque workflow exécuté dans l'environnement. Chaque dossier de workflow inclut un sous-dossier pour ses DAG et ses sous-DAG. Chaque dossier contient les fichiers journaux de chaque tâche. Le nom de fichier de la tâche indique quand la tâche a démarré.

L'exemple suivant illustre la structure du répertoire des journaux pour un environnement.

us-central1-my-environment-60839224-bucket
   └───dags
   |   │
   |   |   dag_1
   |   |   dag_2
   |   |   ...
   |
   └───logs
       │
       └───dag_1
       |   │
       |   └───task_1
       |   |   │   datefile_1
       |   |   │   datefile_2
       |   |   │   ...
       |   |
       |   └───task_2
       |       │   datefile_1
       |       │   datefile_2
       |       │   ...
       |
       └───dag_2
           │   ...

Conservation des journaux

Pour éviter toute perte de données, les journaux enregistrés dans Cloud Storage sont conservés après la suppression de votre environnement. Les journaux doivent être supprimés manuellement de Cloud Storage.

Avant de commencer

L'autorisation suivante est requise pour accéder aux journaux Airflow dans le bucket Cloud Storage pour l'environnement Cloud Composer : storage.objectAdmin. Pour en savoir plus, reportez-vous à la section Contrôle des accès Cloud Composer.

Afficher les journaux des tâches dans Cloud Storage

Pour afficher les fichiers journaux des tâches DAG, procédez comme suit :

  1. Pour afficher les fichiers journaux, saisissez la commande suivante en remplaçant VARIABLES par les valeurs appropriées :

    gsutil ls -r gs://BUCKET/logs

  2. (Facultatif) Pour copier un seul journal ou un sous-dossier, saisissez la commande suivante en remplaçant VARIABLES par les valeurs appropriées :

    gsutil cp -r gs://BUCKET/logs/PATH_TO_LOG_FILE LOCAL_FILE_OR_DIRECTORY

Afficher les journaux de streaming dans Cloud Console

Cloud Composer génère les journaux suivants :

  • airflow : journaux non catégorisés générés par les pods Airflow.
  • airflow-database-init-job : journaux générés par la tâche d'initialisation de base de données Airflow.
  • airflow-scheduler : journaux générés par le programmeur Airflow.
  • airflow-webserver : journaux générés par l'interface Web d'Airflow.
  • airflow-worker : journaux générés dans le cadre de l'exécution des DAG et du workflow.
  • cloudaudit.googleapis.com/activity : journaux générés par les activités d'administration.
  • composer-agent : journaux générés dans le cadre des opérations de création et de mise à jour de l'environnement.
  • gcs-syncd : journaux générés par les processus de synchronisation des fichiers.
  • build-log-worker-scheduler : journaux issus du build local de l'image de nœud de calcul Airflow (lors des mises à niveau et de l'installation des packages Python).
  • build-log-webserver : journaux issus du build de l'image de serveur Web Airflow (lors des mises à niveau et de l'installation des packages Python)
  • airflow-monitoring : journaux générés par la surveillance Airflow.

Pour afficher les fichiers journaux de streaming, procédez comme suit :

  1. Accédez à la visionneuse de journaux de la suite d'opérations de Google Cloud dans Cloud Console.
    ACCÉDER À LA PAGE "VISIONNEUSE DE JOURNAUX"

  2. Sélectionnez les journaux que vous souhaitez voir.

    Vous pouvez filtrer les journaux par propriétés, par exemple par fichier journal et niveau, libellé prédéfini, nom de tâche, workflow et date d'exécution. Pour plus d'informations sur la sélection et le filtrage des journaux, consultez la page Afficher les journaux. Pour en savoir plus sur l'exportation des journaux, consultez la section Exporter des entrées de journal avec la visionneuse de journaux.

Étape suivante