Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3
Questa pagina descrive come accedere alla dashboard di monitoraggio e come utilizzarla nell'ambiente Cloud Composer.
Per un tutorial sul monitoraggio delle metriche chiave dell'ambiente, consulta Monitora l'integrità e le prestazioni dell'ambiente con metriche chiave.
Per ulteriori informazioni su metriche specifiche, consulta Monitorare gli ambienti con Cloud Monitoring.
Accedere alla dashboard di monitoraggio
La dashboard di monitoraggio contiene metriche e grafici per monitorare le tendenze nel il DAG viene eseguito nel tuo ambiente e identifica i problemi con Airflow e le risorse di Cloud Composer.
Per accedere alla dashboard di monitoraggio per il tuo ambiente:
Nella console Google Cloud, vai alla pagina Ambienti.
Nell'elenco degli ambienti, fai clic sul nome del tuo ambiente. Viene visualizzata la pagina Dettagli dell'ambiente.
Vai alla scheda Monitoring.
Configura avvisi per le metriche
Puoi configurare gli avvisi per una metrica facendo clic sull'icona a forma di campana nell'angolo della scheda di monitoraggio.
Visualizzare una metrica in Monitoraggio
Puoi esaminare più da vicino una metrica visualizzandola in Monitoraggio.
Per accedere alla pagina dalla dashboard di monitoraggio di Cloud Composer, fai clic sui tre puntini nell'angolo in alto a destra di una scheda delle metriche e seleziona Visualizza in Metrics Explorer.
Descrizioni delle metriche
Ogni ambiente Cloud Composer dispone di una propria dashboard di monitoraggio. Metriche visualizzate in una dashboard di monitoraggio solo per un determinato ambiente monitorare le esecuzioni dei DAG, i componenti Airflow e i dettagli dell'ambiente per questo dell'ambiente di amministrazione. Ad esempio, se hai due ambienti, la dashboard non aggrega le metriche di entrambi gli ambienti.
Panoramica ambiente
Metrica di ambiente | Descrizione |
---|---|
Integrità dell'ambiente (DAG di monitoraggio di Airflow) | Una cronologia che mostra l'integrità del deployment di Composer. Lo stato verde riflette solo lo stato del deployment di Composer. Ciò non significa che tutti i componenti di Airflow siano operativi e che i DAG possano essere eseguiti. |
Heartbeat dello scheduler | Una sequenza temporale che mostra l'heartbeat dello scheduler di Airflow. Controlla le aree rosse per identificare i problemi dello scheduler Airflow. Se il tuo ambiente ha più di uno scheduler, lo stato del heartbeat è corretto purché almeno uno degli scheduler risponda. |
Integrità del server web | Una sequenza temporale che mostra lo stato del server web Airflow. Questo stato viene generato in base ai codici di stato HTTP restituiti dal server web di Airflow. |
Integrità del database | Una sequenza temporale che mostra lo stato della connessione all'istanza Cloud SQL che ospita il database Airflow. |
Operazioni relative all'ambiente | Una sequenza temporale che mostra le operazioni che modificano l'ambiente, ad esempio l'esecuzione di aggiornamenti della configurazione o il caricamento di snapshot dell'ambiente. |
Operazioni di manutenzione | Una sequenza temporale che mostra i periodi in cui vengono eseguite le operazioni di manutenzione sul cluster dell'ambiente. |
Dipendenze ambiente | Una cronologia che mostra lo stato dei controlli di raggiungibilità e autorizzazioni per il funzionamento dell'ambiente. |
Statistiche DAG
Metrica di ambiente | Descrizione |
---|---|
Esecuzioni di DAG riuscite | Il numero totale di esecuzioni riuscite per tutti i DAG nell'ambiente durante l'intervallo di tempo selezionato. Se il numero di esecuzioni DAG riuscite scende al di sotto dei livelli previsti, ciò potrebbe indicare errori (vedi Esecuzioni DAG non riuscite) o un problema di pianificazione. |
Esecuzioni di DAG non riuscite Attività non riuscite | Il numero totale di esecuzioni non riuscite per tutti i DAG nell'ambiente durante l'intervallo di tempo selezionato. Il numero totale di attività non riuscite nell'ambiente durante l'intervallo di tempo selezionato. Le attività non riuscite non causano sempre l'esito negativo dell'esecuzione di un DAG, ma possono essere un indicatore utile per la risoluzione dei problemi relativi ai DAG. |
Esecuzioni di DAG completate | Il numero di DAG riusciti e non riusciti per gli intervalli nell'intervallo di tempo selezionato. Ciò può essere utile per identificare problemi temporanei con le esecuzioni del DAG e correlarli ad altri eventi, come le espulsioni dei pod di lavoro. |
Attività completate | Il numero di attività completate nell'ambiente con una suddivisione delle attività riuscite e non riuscite. |
Durata mediana di esecuzione dei DAG | La durata mediana delle esecuzioni di DAG. Questo grafico può aiutarti a identificare i problemi di prestazioni e a individuare le tendenze nella durata del DAG. |
Attività Airflow | Il numero di attività in esecuzione, in coda o differite in un determinato momento. Le attività Airflow sono attività in stato in coda in Airflow e possono andare alla coda del broker Celery o di Kubernetes Executor. Le attività nella coda Celery sono istanze di attività che vengono inserite nella coda dell'intermediario Celery. |
Attività zombie interrotte | Il numero di attività zombie interrotte in un breve lasso di tempo. Le attività Zombie sono spesso causate dalla terminazione esterna dei processi Airflow. Lo scheduler Airflow elimina periodicamente attività zombie, cosa che si riflette in questo grafico. |
Dimensione bag DAG | Il numero di DAG di cui è stato eseguito il deployment nel bucket del tuo ambiente ed elaborati da Airflow in un determinato momento. Ciò può essere utile per analizzare i colli di bottiglia delle prestazioni. Ad esempio, un aumento del numero di deployment DAG potrebbe ridurre le prestazioni a causa del carico eccessivo. |
Errori del processore DAG | Il numero di errori e timeout al secondo riscontrati durante l'elaborazione dei file DAG. Il valore indica la frequenza degli errori segnalati dal processore DAG (un valore diverso dal numero di DAG non riusciti). |
Tempo totale di analisi per tutti i DAG | Un grafico che mostra il tempo totale necessario ad Airflow per elaborare tutti i DAG nell'ambiente. L'aumento del tempo di analisi può influire sull'efficienza della pianificazione. Per ulteriori informazioni, consulta Differenza tra il tempo di analisi dei DAG e il tempo di esecuzione del DAG. |
Statistiche dello scheduler
Metrica ambiente | Descrizione |
---|---|
Hearbeat dello scheduler | Consulta la Panoramica dell'ambiente. |
Utilizzo totale della CPU dello scheduler | L'utilizzo totale dei core vCPU da parte dei container in esecuzione in tutti i pod degli scheduler di Airflow e il limite combinato delle vCPU per tutti gli scheduler. |
Utilizzo totale della memoria dello scheduler | Utilizzo totale della memoria da parte dei container in esecuzione in tutti i pod degli scheduler Airflow e limite delle vCPU combinato per tutti gli scheduler. |
Utilizzo totale disco scheduler | Utilizzo totale dello spazio su disco da parte dei container in esecuzione in tutti i pod degli scheduler Airflow e limite dello spazio su disco combinato per tutti gli scheduler. |
Riavvii dei container scheduler | Il numero totale di riavvii per i singoli container dello scheduler. |
Eliminazioni dei pod dello scheduler | Numero di eliminazioni dei pod dello scheduler Airflow. L'espulsione dei pod può verificarsi quando un determinato pod nel cluster del tuo ambiente raggiunge i limiti di risorse. |
Statistiche dei worker
Metrica ambiente | Descrizione |
---|---|
Utilizzo totale CPU worker | Utilizzo totale di core vCPU da parte dei container in esecuzione in tutti i pod worker Airflow e limite combinato di vCPU per tutti i worker. |
Utilizzo totale memoria worker | L'utilizzo totale della memoria da parte dei container in esecuzione in tutti i pod worker Airflow e il limite combinato delle vCPU per tutti i worker. |
Utilizzo totale disco worker | L'utilizzo totale dello spazio su disco da parte dei container in esecuzione in tutti i pod worker Airflow e il limite dello spazio su disco combinato per tutti i worker. |
Worker attivi | Il numero attuale di worker nel tuo ambiente. In Cloud Composer 2, il tuo ambiente scala automaticamente il numero di worker attivi. |
Riavvii dei container worker | Il numero totale di riavvii per i singoli container worker. |
Eliminazioni dei pod di worker | Numero di eliminazioni dei pod dei worker Airflow. L'espulsione dei pod può verificarsi quando un determinato pod nel cluster del tuo ambiente raggiunge i limiti di risorse. Se un pod di worker Airflow viene eliminato, tutte le istanze di attività in esecuzione su quel pod vengono interrotte e successivamente contrassegnate come non riuscite da Airflow. |
Attività Airflow | Vedi Panoramica dell'ambiente. |
Timeout della pubblicazione di broker Celery |
Il numero totale di errori AirflowTaskTimeout generati durante la pubblicazione delle attività nei broker Celery. Questa metrica corrisponde alla metrica celery.task_timeout_error Flusso di aria. |
Errori del comando di esecuzione Celery |
Il numero totale di codici di uscita diversi da zero delle attività Celery. Questa metrica corrisponde alla metrica Airflow celery.execute_command.failure . |
Attività terminate dal sistema | Il numero di attività del flusso di lavoro in cui l'esecutore dell'attività è stato terminato con un SIGKILL (ad esempio a causa di problemi di memoria o di heartbeat dei worker). |
Statistiche degli attivatori
Metrica ambiente | Descrizione |
---|---|
Attività differite | Il numero di attività nello stato differito in un determinato momento. Per saperne di più sulle attività differite, consulta Utilizzare operatori reimpostabili. |
Trigger completati | Il numero di trigger completati in tutti i pod dell'attivatore. |
Trigger in esecuzione | Il numero di trigger in esecuzione per ogni istanza triggerer. Questo grafico mostra linee separate per ogni triggerer. |
Trigger di blocco | Numero di trigger che hanno bloccato il thread principale (probabilmente a causa del mancato funzionamento completamente asincrono). |
CPU totale utilizzata dagli attivatori | Utilizzo totale di core vCPU da parte dei container in esecuzione in tutti i pod degli attivatori di Airflow e limite combinato di vCPU per tutti gli attivatori. |
Memoria totale utilizzata dagli attivatori | L'utilizzo totale della memoria da parte dei container in esecuzione in tutti i pod degli attivatori di Airflow e il limite combinato delle vCPU per tutti gli attivatori. |
Disco totale utilizzato dagli attivatori | L'utilizzo totale dello spazio su disco da parte dei container in esecuzione in tutti i pod degli attivatori di Airflow e il limite di spazio su disco combinato per tutti gli attivatori. |
Trigger attivi | Il numero di istanze di attivatori attive. |
Ripristina i container triggerer | Il numero di riavvii dei container triggerer. |
Statistiche del server web
Metrica di ambiente | Descrizione |
---|---|
Integrità del server web | Vedi Panoramica dell'ambiente. |
Utilizzo CPU server web | L'utilizzo totale dei core vCPU da parte dei container in esecuzione in tutti i pod del server web Airflow e il limite combinato delle vCPU per tutti i server web. |
Utilizzo memoria server web | L'utilizzo totale della memoria da parte dei container in esecuzione in tutti i pod del server web Airflow e il limite combinato delle vCPU per tutti i server web. |
Utilizzo totale disco server web | L'utilizzo totale dello spazio su disco da parte dei container in esecuzione in tutti i pod del server web Airflow e il limite dello spazio su disco combinato per tutti i server web. |
Statistiche dei database SQL
Metrica di ambiente | Descrizione |
---|---|
Integrità del database | Consulta la Panoramica dell'ambiente. |
Utilizzo CPU database | L'utilizzo di core della CPU da parte delle istanze del database Cloud SQL del tuo ambiente. |
Utilizzo memoria database | L'utilizzo totale della memoria da parte delle istanze del database Cloud SQL del tuo ambiente. |
Utilizzo disco database | Utilizzo totale dello spazio su disco da parte delle istanze del database Cloud SQL del tuo ambiente. Questa metrica si applica all'istanza del database Cloud SQL stessa, quindi la metrica non diminuisce quando le dimensioni del database Airflow vengono ridotte. Per una metrica che mostra le dimensioni dei contenuti del database Airflow, consulta Dimensione del database dei metadati Airflow. |
Dimensione del database dei metadati Airflow | Dimensioni del database di metadati Airflow. Questa metrica si applica al componente Airflow del tuo ambiente e mostra la quantità di spazio su disco occupata dal database dei metadati di Airflow nell'istanza del database Cloud SQL. Questa metrica diminuisce quando le dimensioni del database dei metadati Airflow vengono ridotte (ad esempio dopo la manutenzione del database Airflow) e determina se è possibile creare snapshot e eseguire l'upgrade degli ambienti. Questa metrica è diversa dalla metrica Utilizzo disco database, che mostra la quantità di spazio su disco utilizzata dalle istanze del database Cloud SQL. |
Connessioni al database | Il numero totale di connessioni attive al database e il limite di connessioni totali. |
Differenza tra tempo di analisi dei DAG e tempo di esecuzione del DAG
La dashboard di monitoraggio di un ambiente mostra il tempo totale necessario per analizzare tutti i DAG nell'ambiente Cloud Composer e il tempo medio necessario per eseguire un DAG.
L'analisi di un DAG e la pianificazione delle attività da un DAG per l'esecuzione sono due operazioni distinte eseguite dallo scheduler di Airflow.
Il tempo di analisi dei DAG è il tempo impiegato dallo scheduler di Airflow per leggere un file DAG e analizzarlo.
Prima che lo scheduler Airflow possa pianificare qualsiasi attività da un DAG, analizzare il file DAG per scoprire la struttura del DAG e attività di machine learning. Dopo l'analisi del file DAG, lo scheduler può avviare la pianificazione delle attività del DAG.
Il tempo di esecuzione del DAG è la somma di tutti i tempi di esecuzione delle attività per un DAG.
Per vedere il tempo necessario per eseguire una determinata attività Airflow da un DAG, nell'interfaccia web di Airflow seleziona un DAG e apri la scheda Durata attività. Questa scheda mostra i tempi di esecuzione delle attività per il numero specificato di ultime esecuzioni del DAG.