Visualizzazione dei log di Airflow

Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3

Questa pagina descrive come accedere e visualizzare i log di Apache Airflow per Cloud Composer.

Tipi di log

Cloud Composer ha i seguenti log di Airflow:

  • Log Airflow: questi log sono associati a singole attività DAG. Puoi visualizzare i log delle attività nella cartella logs di Cloud Storage associata all'ambiente Cloud Composer. Puoi anche visualizzare i log l'interfaccia web di Airflow.
  • Log dei flussi di dati: questi log sono un soprainsieme di log in Airflow. Per accedere ai log in streaming, puoi andare alla scheda Log della pagina Dettagli dell'ambiente nella console Google Cloud, utilizzare Cloud Logging o Cloud Monitoring.

    Si applicano le quote di Logging e Monitoring.

    Per saperne di più su Cloud Logging e Cloud Monitoring per la tua per l'ambiente Cloud Composer, consulta Ambienti di monitoraggio.

di Gemini Advanced.

Log in Cloud Storage

Quando crei un ambiente, Cloud Composer crea il bucket Cloud Storage e lo associa al tuo ambiente. Cloud Composer archivia i log per le singole attività DAG nella cartella logs del bucket.

Struttura della directory delle cartelle dei log

La cartella logs include cartelle per ogni flusso di lavoro eseguito nell'ambiente. Ogni cartella del flusso di lavoro include una cartella per i relativi DAG e sotto-DAG. Ogni cartella contiene file di log per ciascuna attività. Il nome file dell'attività indica quando è stata avviata.

L'esempio seguente mostra la struttura della directory dei log per un ambiente.

us-central1-my-environment-60839224-bucket
   └───dags
   |   │
   |   |   dag_1
   |   |   dag_2
   |   |   ...
   |
   └───logs
       │
       └───dag_1
       |   │
       |   └───task_1
       |   |   │   datefile_1
       |   |   │   datefile_2
       |   |   │   ...
       |   |
       |   └───task_2
       |       │   datefile_1
       |       │   datefile_2
       |       │   ...
       |
       └───dag_2
           │   ...

Conservazione dei log

Per evitare perdite di dati, i log salvati nel bucket dell'ambiente non vengono eliminati dopo elimini il tuo ambiente. Devi eliminare manualmente i log da del bucket dell'ambiente.

I log archiviati nel bucket dell'ambiente utilizzano il criterio del bucket. Cloud Composer crea bucket con il criterio predefinito che conserva i dati per sempre.

Per i log archiviati in Cloud Logging, Cloud Composer utilizza _Default e definito dall'utente dei log dei periodi di conservazione.

Prima di iniziare

Devi avere un ruolo in grado di visualizzare gli oggetti nei bucket di ambiente. Per maggiori informazioni per ulteriori informazioni, consulta Controllo dell'accesso.

Visualizzazione dei log delle attività in Cloud Storage

Per visualizzare i file di log per le attività DAG:

  1. Per visualizzare i file di log, inserisci il comando seguente, sostituendo VARIABLES con i valori appropriati:

    gcloud storage ls gs://BUCKET/logs --recursive

  2. (Facoltativo) Per copiare un singolo log o una sottocartella, inserisci il comando seguente, sostituendo VARIABLES con i valori appropriati:

    gcloud storage cp gs://BUCKET/logs/PATH_TO_LOG_FILE LOCAL_FILE_OR_DIRECTORY --recursive

Visualizzazione dei flussi di log nella console Google Cloud

Cloud Composer genera i seguenti log:

  • airflow: i log non classificati generati dai pod Airflow.
  • airflow-upgrade-db: i log generati dal job di inizializzazione del database Airflow (in precedenza airflow-database-init-job).
  • airflow-scheduler: i log generati dallo scheduler di Airflow.
  • dag-processor-manager: i log del gestore processore DAG (la parte dello scheduler che elabora i file DAG).
  • airflow-triggerer: i log generati dall'attivatore Airflow.
  • airflow-webserver: i log generati dall'interfaccia web di Airflow.
  • airflow-worker: i log generati nell'ambito dell'esecuzione del flusso di lavoro e del DAG.
  • cloudaudit.googleapis.com/activity: i log generati da Attività di amministrazione.
  • composer-agent: i log generati nell'ambito delle operazioni di creazione e aggiornamento dell'ambiente.
  • gcs-syncd: i log generati dai processi di sincronizzazione dei file.
  • build-log-worker-scheduler: i log della compilazione locale dell'immagine del worker di Airflow (durante gli upgrade e l'installazione del pacchetto Python).
  • build-log-webserver: i log della compilazione dell'immagine del server web di Airflow (durante gli upgrade e l'installazione dei pacchetti Python).
  • airflow-monitoring: i log generati dal monitoraggio di Airflow.

Questi log possono essere visualizzati nella scheda Log della pagina Dettagli ambiente o in Cloud Logging.

Per visualizzare i flussi di log nella pagina Dettagli ambiente:

  1. Nella console Google Cloud, vai alla pagina Ambienti.

    Vai ad Ambienti

  2. Trova il nome dell'ambiente che vuoi ispezionare nell'elenco. Fai clic sul nome dell'ambiente per aprire la pagina Dettagli ambiente, quindi seleziona la scheda Log.

  3. Seleziona la sottocategoria dei log che vuoi visualizzare e scegli l'intervallo di tempo da ispezionare con il selettore dell'intervallo di tempo nell'angolo in alto a sinistra.

Per visualizzare i log in streaming in Cloud Logging:

  1. Vai a Esplora log nella console Google Cloud.

    Vai a Esplora log

  2. Seleziona i log che vuoi visualizzare.

    Puoi filtrare in base a proprietà come file di log e livello, etichetta predefinita, nome della task, flusso di lavoro e data di esecuzione. Per ulteriori informazioni Selezionare e filtrare i log, vedi Utilizzare Esplora log.

    Per scoprire di più sull'esportazione dei log, consulta Configurare e gestire i sink.

Passaggi successivi