Afficher les journaux Airflow

Cloud Composer 1 | Cloud Composer 2

Cette page explique comment accéder aux journaux Apache Airflow pour Cloud Composer et les afficher.

Types de journaux

Cloud Composer contient les journaux Airflow suivants:

  • Journaux Airflow : ces journaux sont associés à des tâches DAG uniques. Vous pouvez afficher les journaux des tâches dans le dossier Cloud Storage logs associé à l'environnement Cloud Composer. Vous pouvez également consulter les journaux dans l'interface Web Airflow.
  • Journaux de streaming : ces journaux constituent un sur-ensemble des journaux dans Airflow. Pour accéder aux journaux de streaming, vous pouvez accéder à l'onglet "Journaux" de la page "Détails de l'environnement" dans Google Cloud Console, utiliser Cloud Logging ou utiliser Cloud Monitoring.

    Les quotas Logging et Monitoring s'appliquent.

    Pour en savoir plus sur Cloud Logging et Cloud Monitoring pour votre environnement Cloud Composer, consultez la page Environnements Monitoring.

Journaux dans Cloud Storage

Lorsque vous créez un environnement, Cloud Composer crée un bucket Cloud Storage et l'associe à votre environnement. Cloud Composer stocke les journaux des tâches contenant des DAG uniques dans le dossier logs du bucket.

Structure des répertoires du dossier des journaux

Le dossier logs inclut des dossiers pour chaque workflow exécuté dans l'environnement. Chaque dossier de workflow inclut un sous-dossier pour ses DAG et ses sous-DAG. Chaque dossier contient les fichiers journaux de chaque tâche. Le nom de fichier de la tâche indique quand la tâche a démarré.

L'exemple suivant illustre la structure du répertoire des journaux pour un environnement.

us-central1-my-environment-60839224-bucket
   └───dags
   |   │
   |   |   dag_1
   |   |   dag_2
   |   |   ...
   |
   └───logs
       │
       └───dag_1
       |   │
       |   └───task_1
       |   |   │   datefile_1
       |   |   │   datefile_2
       |   |   │   ...
       |   |
       |   └───task_2
       |       │   datefile_1
       |       │   datefile_2
       |       │   ...
       |
       └───dag_2
           │   ...

Conservation des journaux

Pour éviter de perdre des données, les journaux enregistrés dans Cloud Storage sont conservés après la suppression de votre environnement. Vous devez les supprimer manuellement de Cloud Storage.

Avant de commencer

Vous devez disposer d'un rôle permettant d'afficher les objets dans les buckets d'environnement. Pour plus d'informations, consultez la section Contrôle des accès.

Afficher les journaux des tâches dans Cloud Storage

Pour afficher les fichiers journaux des tâches DAG, procédez comme suit :

  1. Pour afficher les fichiers journaux, saisissez la commande suivante en remplaçant VARIABLES par les valeurs appropriées :

    gsutil ls -r gs://BUCKET/logs

  2. (Facultatif) Pour copier un seul journal ou un sous-dossier, saisissez la commande suivante en remplaçant VARIABLES par les valeurs appropriées :

    gsutil cp -r gs://BUCKET/logs/PATH_TO_LOG_FILE LOCAL_FILE_OR_DIRECTORY

Afficher les journaux de streaming dans Cloud Console

Cloud Composer génère les journaux suivants :

  • airflow : journaux non catégorisés générés par les pods Airflow.
  • airflow-upgrade-db: journaux générés par la tâche d'initialisation de base de données Airflow (anciennement airflow-database-init-job).
  • airflow-scheduler : journaux générés par le programmeur Airflow.
  • dag-processor-manager: journaux du gestionnaire de processeur du DAG (partie du programmeur qui traite les fichiers DAG)
  • airflow-webserver : journaux générés par l'interface Web d'Airflow.
  • airflow-worker : journaux générés dans le cadre de l'exécution des DAG et du workflow.
  • cloudaudit.googleapis.com/activity : journaux générés par les activités d'administration.
  • composer-agent : journaux générés dans le cadre des opérations de création et de mise à jour de l'environnement.
  • gcs-syncd : journaux générés par les processus de synchronisation des fichiers.
  • build-log-worker-scheduler : journaux issus du build local de l'image de nœud de calcul Airflow (lors des mises à niveau et de l'installation des packages Python).
  • build-log-webserver : journaux issus du build de l'image de serveur Web Airflow (lors des mises à niveau et de l'installation des packages Python)
  • airflow-monitoring : journaux générés par la surveillance Airflow.

Vous pouvez consulter ces journaux dans l'onglet "Journaux" de la page "Détails de l'environnement" ou dans Cloud Logging.

Pour afficher les journaux de streaming sur la page "Détails de l'environnement", procédez comme suit :

  1. Dans Google Cloud Console, accédez à la page Environnements.

    Accéder à la page "Environnements"

  2. Recherchez dans la liste le nom de l'environnement que vous souhaitez inspecter. Cliquez sur le nom de l'environnement pour ouvrir la page Détails de l'environnement, puis sélectionnez l'onglet Journaux.

  3. Sélectionnez la sous-catégorie des journaux que vous souhaitez afficher et choisissez l'intervalle de temps à inspecter avec le sélecteur de période situé dans l'angle supérieur gauche.

Pour afficher les journaux de streaming dans Cloud Logging, procédez comme suit :

  1. Accédez à l'explorateur de journaux dans Cloud Console.

    Accéder à l'explorateur de journaux

  2. Sélectionnez les journaux que vous souhaitez voir.

    Vous pouvez filtrer les données par propriétés, telles que le fichier journal et le niveau, le libellé prédéfini, le nom de la tâche, le workflow et la date d'exécution. Pour en savoir plus sur la sélection et le filtrage des journaux, consultez la page Afficher les journaux.

    Pour en savoir plus sur l'exportation des journaux, consultez la page Configurer des récepteurs.

Étape suivante