Utilizzo della dashboard di monitoraggio

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

Questa pagina descrive come accedere e utilizzare la dashboard di monitoraggio per un ambiente Cloud Composer.

Per ulteriori informazioni su metriche specifiche, consulta Monitorare gli ambienti con Cloud Monitoring.

Accedere alla dashboard di monitoraggio

La dashboard di monitoraggio contiene metriche e grafici per monitorare le tendenze delle esecuzioni DAG nel tuo ambiente e identificare i problemi relativi ai componenti Airflow e alle risorse Cloud Composer.

Per accedere alla dashboard di monitoraggio del tuo ambiente:

  1. Nella console Google Cloud , vai alla pagina Ambienti.

    Vai ad Ambienti

  2. Nell'elenco degli ambienti, fai clic sul nome del tuo ambiente. Viene visualizzata la pagina Dettagli ambiente.

  3. Vai alla scheda Monitoraggio.

Configurare gli avvisi per le metriche

Puoi configurare avvisi per una metrica facendo clic sull'icona a forma di campana nell'angolo della scheda di monitoraggio.

Crea un avviso per una metrica visualizzata nella dashboard di monitoraggio
Figura 1. Crea un avviso per una metrica visualizzata nella dashboard di monitoraggio (fai clic per ingrandire)

Visualizzare una metrica in Monitoring

Puoi esaminare più da vicino una metrica visualizzandola in Monitoraggio.

Per passare alla dashboard di monitoraggio di Cloud Composer, fai clic sui tre puntini nell'angolo in alto a destra di una scheda delle metriche e seleziona Visualizza in Metrics Explorer.

Visualizzare una metrica dalla dashboard di monitoraggio in Esplora metriche
Figura 2. Visualizza una metrica dalla dashboard di monitoraggio in Esplora metriche (fai clic per ingrandire)

Descrizioni delle metriche

Ogni ambiente Cloud Composer ha il proprio dashboard di monitoraggio. Le metriche visualizzate in una dashboard di monitoraggio per un determinato ambiente tengono traccia solo delle esecuzioni DAG, dei componenti Airflow e dei dettagli dell'ambiente. Ad esempio, se hai due ambienti, il pannello non aggrega le metriche di entrambi gli ambienti.

Panoramica ambiente

Metrica dell'ambiente Descrizione
Integrità ambiente (DAG di monitoraggio di Airflow) Una sequenza temporale che mostra lo stato di integrità del deployment di Composer. Lo stato verde riflette solo lo stato del deployment di Composer. Ciò non significa che tutti i componenti Airflow siano operativi e che i DAG possano essere eseguiti.
Heartbeat dello scheduler Una sequenza temporale che mostra l'heartbeat dello scheduler di Airflow. Controlla le aree rosse per identificare i problemi dello scheduler Airflow. Se il tuo ambiente ha più di uno scheduler, lo stato di heartbeat è integro finché almeno uno degli scheduler risponde.
Integrità del server web Una sequenza temporale che mostra lo stato del server web di Airflow. Questo stato viene generato in base ai codici di stato HTTP restituiti dal server web di Airflow.
Integrità del database Una cronologia che mostra lo stato della connessione all'istanza Cloud SQL che ospita il database Airflow.
Operazioni relative all'ambiente Una cronologia che mostra le operazioni che modificano l'ambiente, ad esempio l'esecuzione di aggiornamenti della configurazione o il caricamento di snapshot dell'ambiente.
Operazioni di manutenzione Una cronologia che mostra i periodi in cui vengono eseguite le operazioni di manutenzione sul cluster dell'ambiente.
Dipendenze ambiente Una cronologia che mostra lo stato dei controlli di raggiungibilità e delle autorizzazioni per l'operazione dell'ambiente.

Statistiche DAG

Metrica dell'ambiente Descrizione
Esecuzioni di DAG riuscite Il numero totale di esecuzioni riuscite per tutti i DAG nell'ambiente durante l'intervallo di tempo selezionato. Se il numero di esecuzioni dei DAG riuscite scende al di sotto dei livelli previsti, ciò potrebbe indicare errori (vedi Esecuzioni dei DAG non riuscite) o un problema di pianificazione.
Esecuzioni di DAG non riuscite Attività non riuscite Il numero totale di esecuzioni non riuscite per tutti i DAG nell'ambiente durante l'intervallo di tempo selezionato. Il numero totale di attività non riuscite nell'ambiente durante l'intervallo di tempo selezionato. Le attività non riuscite non sempre causano l'esito negativo dell'esecuzione di un DAG, ma possono essere un segnale utile per la risoluzione dei problemi relativi agli errori del DAG.
Esecuzioni di DAG completate Il numero di esecuzioni di DAG riuscite e non riuscite per gli intervalli nell'intervallo di tempo selezionato. Ciò può contribuire a identificare problemi temporanei con le esecuzioni DAG e a correlarli ad altri eventi, come le espulsioni di pod worker.
Attività completate Il numero di attività completate nell'ambiente con una suddivisione delle attività riuscite e non riuscite.
Durata mediana di esecuzione dei DAG La durata mediana delle esecuzioni di DAG. Questo grafico può aiutarti a identificare i problemi di prestazioni e a individuare le tendenze nella durata del DAG.
Attività Airflow Il numero di attività in esecuzione, in coda o differite in un determinato momento. Le attività Airflow sono attività in stato di coda in Airflow e possono essere inserite nella coda dell'intermediario Celery o dell'esecutore Kubernetes. Le attività nella coda Celery sono istanze di attività che vengono inserite nella coda dell'intermediario Celery.
Attività zombie interrotte Il numero di attività zombie interrotte in una piccola finestra temporale. Le attività zombie sono spesso causate dalla terminazione esterna dei processi Airflow. Lo scheduler di Airflow interrompe periodicamente le attività zombie, come mostrato in questo grafico.
Dimensione bag DAG Il numero di DAG di cui è stato eseguito il deployment nel bucket del tuo ambiente ed elaborati da Airflow in un determinato momento. Questo può essere utile per analizzare i colli di bottiglia delle prestazioni. Ad esempio, un numero maggiore di deployment DAG può ridurre le prestazioni a causa di un carico eccessivo.
Errori del processore DAG Il numero di errori e timeout al secondo riscontrati durante l'elaborazione dei file DAG. Il valore indica la frequenza degli errori segnalati dal processore DAG (un valore diverso dal numero di DAG non riusciti).
Tempo totale di analisi per tutti i DAG Un grafico che mostra il tempo totale necessario ad Airflow per elaborare tutti i DAG nell'ambiente. L'aumento del tempo di analisi può influire sull'efficienza della pianificazione. Per ulteriori informazioni, consulta Differenza tra tempo di analisi DAG e tempo di esecuzione DAG.

Statistiche dello scheduler

Metrica dell'ambiente Descrizione
Heartbeat dello scheduler Consulta la panoramica dell'ambiente.
Utilizzo totale della CPU dello scheduler L'utilizzo totale di core vCPU da parte dei container in esecuzione in tutti i pod degli scheduler di Airflow e il limite combinato di vCPU per tutti gli scheduler.
Memoria totale utilizzata dallo scheduler L'utilizzo totale di memoria da parte dei container in esecuzione in tutti i pod degli scheduler di Airflow e il limite combinato di vCPU per tutti gli scheduler.
Spazio su disco totale utilizzato dallo scheduler L'utilizzo totale dello spazio su disco da parte dei container in esecuzione in tutti i pod degli scheduler di Airflow e il limite di spazio su disco combinato per tutti gli scheduler.
Riavvii dei container scheduler Il numero totale di riavvii per i singoli container scheduler.
Eliminazioni dei pod dello scheduler Numero di eliminazioni dei pod dello scheduler di Airflow. L'espulsione dei pod può verificarsi quando un determinato pod nel cluster del tuo ambiente raggiunge i limiti delle risorse.

Statistiche worker

Metrica dell'ambiente Descrizione
Utilizzo totale CPU worker L'utilizzo totale di core vCPU da parte dei container in esecuzione in tutti i pod worker Airflow e il limite combinato di vCPU per tutti i worker.
Utilizzo totale memoria worker L'utilizzo totale di memoria da parte dei container in esecuzione in tutti i pod worker Airflow e il limite combinato di vCPU per tutti i worker.
Utilizzo totale disco worker L'utilizzo totale dello spazio su disco da parte dei container in esecuzione in tutti i pod worker Airflow e il limite combinato di spazio su disco per tutti i worker.
Worker attivi Il numero attuale di worker nel tuo ambiente. In Cloud Composer 2, il tuo ambiente scala automaticamente il numero di worker attivi.
Riavvii dei container worker Il numero totale di riavvii per i singoli container worker.
Eliminazioni dei pod di worker Numero di eliminazioni dei pod worker Airflow. L'espulsione dei pod può verificarsi quando un determinato pod nel cluster del tuo ambiente raggiunge i limiti delle risorse. Se un pod worker di Airflow viene rimosso, tutte le istanze di attività in esecuzione su quel pod vengono interrotte e successivamente contrassegnate come non riuscite da Airflow.
Attività Airflow Consulta la panoramica dell'ambiente.
Attività Celery non confermate Il numero di attività non confermate nella coda dell'intermediario Celery. Le attività non confermate includono le istanze di attività Airflow negli stati delle attività queued e running. Entrambi gli stati sono normali per l'esecuzione dell'attività Airflow. Il grafico Attività Celery non confermate mostrerà le attività in questi stati come non confermate durante l'elaborazione da parte di Airflow. Se un'istanza di attività Airflow viene interrotta in modo anomalo (ad esempio, viene rilevata come zombie), rimarrà non riconosciuta fino al raggiungimento del visibility_timeout. In questo caso, il grafico mostrerà un'attività che rimane costantemente non confermata per un lungo periodo di tempo. Il valore del timeout di visibilità è impostato su 7 giorni in Cloud Composer. Trascorso questo periodo di tempo, l'attività verrà nuovamente inviata e potrà essere confermata. Se il tentativo non va a buon fine, la conferma potrebbe rimanere in attesa per altri 7 giorni.
Timeout della pubblicazione di broker Celery Il numero totale di errori AirflowTaskTimeout generati durante la pubblicazione delle attività nei broker Celery. Questa metrica corrisponde alla metrica celery.task_timeout_error Airflow.
Errori del comando di esecuzione Celery Il numero totale di codici di uscita diversi da zero delle attività Celery. Questa metrica corrisponde alla metrica celery.execute_command.failure Airflow.
Attività terminate dal sistema Il numero di attività del workflow in cui l'esecutore dell'attività è stato terminato con un SIGKILL (ad esempio a causa di problemi di memoria o di heartbeat dei worker).

Statistiche del server web

Metrica dell'ambiente Descrizione
Integrità del server web Consulta la panoramica dell'ambiente.
Utilizzo CPU server web L'utilizzo totale dei core vCPU da parte dei container in esecuzione in tutte le istanze del server web Airflow e il limite combinato di vCPU per tutti i server web.
Utilizzo memoria server web L'utilizzo totale di memoria da parte dei container in esecuzione in tutte le istanze del server web Airflow e il limite combinato di vCPU per tutti i server web.
Utilizzo totale del disco del server web L'utilizzo totale dello spazio su disco da parte dei container in esecuzione in tutte le istanze del server web Airflow e il limite di spazio su disco combinato per tutti i server web.

Statistiche del database SQL

Metrica dell'ambiente Descrizione
Integrità del database Consulta la panoramica dell'ambiente.
Utilizzo CPU database L'utilizzo di core CPU da parte delle istanze del database Cloud SQL del tuo ambiente.
Utilizzo memoria database L'utilizzo totale della memoria da parte delle istanze del database Cloud SQL del tuo ambiente.
Utilizzo disco database L'utilizzo totale di spazio su disco da parte delle istanze del database Cloud SQL del tuo ambiente. Questa metrica si applica all'istanza del database Cloud SQL stessa, quindi non diminuisce quando le dimensioni del database Airflow vengono ridotte. Per una metrica che mostra le dimensioni dei contenuti del database Airflow, vedi Dimensioni del database di metadati Airflow.
Dimensione del database dei metadati Airflow Dimensioni del database di metadati Airflow. Questa metrica si applica al componente Airflow del tuo ambiente e mostra la quantità di spazio su disco occupata dal database dei metadati di Airflow nell'istanza del database Cloud SQL. Questa metrica diminuisce quando le dimensioni del database di metadati Airflow vengono ridotte (ad esempio, dopo la manutenzione del database Airflow) e determina se è possibile creare snapshot e aggiornare gli ambienti. Questa metrica è diversa dalla metrica Utilizzo del disco del database, che mostra la quantità di spazio su disco utilizzata dalle istanze del database Cloud SQL.
Connessioni al database Il numero totale di connessioni attive al database e il limite totale di connessioni.

Differenza tra il tempo di analisi del DAG e il tempo di esecuzione del DAG

La dashboard di monitoraggio di un ambiente mostra il tempo totale necessario per analizzare tutti i DAG nell'ambiente Cloud Composer e il tempo medio necessario per eseguire un DAG.

L'analisi di un DAG e la pianificazione delle attività di un DAG per l'esecuzione sono due operazioni distinte eseguite dallo scheduler Airflow.

Analisi dei DAG e pianificazione delle attività eseguite dallo scheduler Airflow
Figura 3. Analisi dei DAG e pianificazione delle attività eseguite dallo scheduler Airflow (fai clic per ingrandire)

Il tempo di analisi del DAG è il tempo necessario allo scheduler Airflow per leggere un file DAG e analizzarlo.

Prima che lo scheduler Airflow possa pianificare qualsiasi attività da un DAG, deve analizzare il file DAG per scoprire la struttura del DAG e le attività definite. Dopo l'analisi del file DAG, lo scheduler può iniziare a pianificare le attività del DAG.

Il tempo di esecuzione del DAG è la somma di tutti i tempi di esecuzione delle attività per un DAG.

Per vedere quanto tempo impiega l'esecuzione di una determinata attività Airflow da un DAG, nell'interfaccia web di Airflow, seleziona un DAG e apri la scheda Durata attività. Questa scheda mostra i tempi di esecuzione delle attività per il numero specificato di ultime esecuzioni dei DAG.

Passaggi successivi