Cloud Composer 1 | Cloud Composer 2
Questa pagina descrive come accedere alla dashboard di monitoraggio e come utilizzarla per un ambiente Cloud Composer.
Per un tutorial sul monitoraggio delle metriche chiave dell'ambiente, consulta Monitorare l'integrità e le prestazioni dell'ambiente con le metriche chiave.
Per ulteriori informazioni su metriche specifiche, consulta Monitorare gli ambienti con Cloud Monitoring.
Accedi alla dashboard di monitoraggio
La dashboard di monitoraggio contiene metriche e grafici per monitorare le tendenze eseguite nei DAG nel tuo ambiente e identificare i problemi con i componenti Airflow e le risorse Cloud Composer.
Per accedere alla dashboard di monitoraggio per il tuo ambiente:
Nella console Google Cloud, vai alla pagina Ambienti.
Nell'elenco degli ambienti, fai clic sul nome dell'ambiente. Viene visualizzata la pagina Dettagli ambiente.
Vai alla scheda Monitoring.
Configurare gli avvisi per le metriche
Puoi configurare avvisi per una metrica facendo clic sull'icona a forma di campana nell'angolo della scheda di monitoraggio.
Visualizza una metrica in Monitoring
Puoi esaminare più da vicino una metrica visualizzandola in Monitoring.
Per accedere alla dashboard di monitoraggio di Cloud Composer, fai clic sui tre puntini nell'angolo in alto a destra di una scheda delle metriche e seleziona Visualizza in Metrics Explorer.
Descrizioni delle metriche
Ogni ambiente Cloud Composer dispone di una propria dashboard di monitoraggio. Le metriche visualizzate in una dashboard di monitoraggio per un determinato ambiente tracciano solo le esecuzioni di DAG, i componenti Airflow e i dettagli dell'ambiente solo per questo ambiente. Ad esempio, se hai due ambienti, la dashboard non aggrega le metriche di entrambi gli ambienti.
Panoramica ambiente
Metrica relativa all'ambiente | Descrizione |
---|---|
Integrità dell'ambiente (DAG di monitoraggio di Airflow) | Una sequenza temporale che mostra l'integrità del deployment di Composer. Lo stato verde riflette solo lo stato del deployment di Composer. Questo non significa che tutti i componenti Airflow siano operativi e che i DAG possano essere eseguiti. |
Heartbeat dello scheduler | Una sequenza temporale che mostra il battito cardiaco dello scheduler Airflow. Controlla la presenza di aree rosse per identificare problemi dello scheduler Airflow. Se nel tuo ambiente ci sono più scheduler, lo stato del battito cardiaco è integro purché almeno uno scheduler risponda. |
Integrità del server web | Una sequenza temporale che mostra lo stato del server web Airflow. Questo stato viene generato in base ai codici di stato HTTP restituiti dal server web Airflow. |
Integrità del database | Una sequenza temporale che mostra lo stato della connessione all'istanza Cloud SQL che ospita il database Airflow. |
Operazioni relative all'ambiente | Una sequenza temporale che mostra le operazioni che modificano l'ambiente, ad esempio l'esecuzione di aggiornamenti della configurazione o il caricamento degli snapshot dell'ambiente. |
Operazioni di manutenzione | Una cronologia che mostra i periodi in cui vengono eseguite operazioni di manutenzione sul cluster dell'ambiente. |
Dipendenze ambiente | Una sequenza temporale che mostra lo stato dei controlli di connettività e autorizzazioni per il funzionamento dell'ambiente. |
Statistiche DAG
Metrica relativa all'ambiente | Descrizione |
---|---|
Esecuzioni di DAG riuscite | Il numero totale di esecuzioni riuscite per tutti i DAG nell'ambiente durante l'intervallo di tempo selezionato. Se il numero di esecuzioni di DAG riuscite scende al di sotto dei livelli previsti, ciò potrebbe indicare degli errori (vedi Esecuzioni di DAG non riuscite) o di un problema di pianificazione. |
Esecuzioni di DAG non riuscite Attività non riuscite | Il numero totale di esecuzioni non riuscite per tutti i DAG nell'ambiente durante l'intervallo di tempo selezionato. Il numero totale di attività non riuscite nell'ambiente durante l'intervallo di tempo selezionato. Le attività non riuscite non sempre causano l'esito negativo dell'esecuzione di un DAG, ma possono essere un segnale utile per la risoluzione degli errori dei DAG. |
Esecuzioni di DAG completate | Il numero di operazioni riuscite e non riuscite di DAG per gli intervalli nell'intervallo di tempo selezionato. Questo può aiutare a identificare i problemi temporanei alle esecuzioni di DAG e a correlarli con altri eventi, come l'eliminazione dei pod di worker. |
Attività completate | Il numero di attività completate nell'ambiente con un'analisi delle attività riuscite e non riuscite. |
Durata mediana di esecuzione dei DAG | La durata mediana delle esecuzioni di DAG. Questo grafico può aiutarti a identificare i problemi di rendimento e le tendenze nella durata dei DAG. |
Attività Airflow | Il numero di attività in esecuzione, in coda o differite in un determinato momento. Le attività di Airflow sono attività in coda in Airflow, possono andare alla coda del broker di Celery o di Kubernetes Executor. Le attività nella coda Celery sono istanze di attività che vengono inserite nella coda dell'intermediario Celery. |
Attività zombie interrotte | Il numero di attività zombie terminate in un breve periodo di tempo. Le attività zombie sono spesso causate dalla terminazione esterna dei processi Airflow. Lo scheduler Airflow uccide periodicamente le attività zombie, come indicato in questo grafico. |
Dimensione bag DAG | Il numero di DAG di cui è stato eseguito il deployment nel bucket del tuo ambiente ed elaborati da Airflow in un determinato momento. Ciò può essere utile quando si analizzano i colli di bottiglia delle prestazioni. Ad esempio, un numero maggiore di deployment di DAG può ridurre le prestazioni a causa di un carico eccessivo. |
Errori del processore DAG | Il numero di errori e timeout al secondo riscontrati durante l'elaborazione dei file DAG. Il valore indica la frequenza degli errori segnalati dal processore DAG (un valore diverso dal numero di DAG non riusciti). |
Tempo totale di analisi per tutti i DAG | Un grafico che mostra il tempo totale necessario a Airflow per elaborare tutti i DAG nell'ambiente. Un aumento dei tempi di analisi può influire sull'efficienza della pianificazione. Per saperne di più, consulta Differenza tra il tempo di analisi dei DAG e il tempo di esecuzione dei DAG. |
Statistiche dello scheduler
Metrica relativa all'ambiente | Descrizione |
---|---|
Hearbeat dello scheduler | Vedi Panoramica dell'ambiente. |
CPU totale utilizzata dallo scheduler | Utilizzo totale di core vCPU da parte dei container in esecuzione in tutti i pod degli scheduler Airflow e limite delle vCPU combinato per tutti gli scheduler. |
Memoria totale utilizzata dallo scheduler | Utilizzo totale della memoria da parte dei container in esecuzione in tutti i pod degli scheduler Airflow e limite delle vCPU combinato per tutti gli scheduler. |
Utilizzo totale disco dello scheduler | Utilizzo totale dello spazio su disco da parte dei container in esecuzione in tutti i pod degli scheduler di Airflow e limite combinato di spazio su disco per tutti gli scheduler. |
Riavvii dei container scheduler | Il numero totale di riavvii per singoli container scheduler. |
Eliminazioni dei pod di scheduler | Numero di eliminazioni dei pod dello scheduler Airflow. L'eliminazione dei pod può verificarsi quando un determinato pod nel cluster del tuo ambiente raggiunge i limiti di risorse. |
Statistiche sui worker
Metrica relativa all'ambiente | Descrizione |
---|---|
Utilizzo totale CPU worker | Utilizzo totale di core vCPU da parte dei container in esecuzione in tutti i pod worker Airflow e limite combinato di vCPU per tutti i worker. |
Utilizzo totale memoria worker | Utilizzo totale della memoria da parte dei container in esecuzione in tutti i pod worker Airflow e limite delle vCPU combinato per tutti i worker. |
Utilizzo totale disco worker | Utilizzo totale dello spazio su disco da parte dei container in esecuzione in tutti i pod worker Airflow e limite dello spazio su disco combinato per tutti i worker. |
Worker attivi | Il numero attuale di worker nel tuo ambiente. In Cloud Composer 2, il tuo ambiente scala automaticamente il numero di worker attivi. |
Riavvii dei container worker | Il numero totale di riavvii per singoli container worker. |
Eliminazioni dei pod di worker | Numero di eliminazioni dei pod di worker Airflow. L'eliminazione dei pod può verificarsi quando un determinato pod nel cluster del tuo ambiente raggiunge i limiti di risorse. Se un pod worker Airflow viene rimosso, tutte le istanze delle attività in esecuzione su quel pod vengono interrotte e successivamente contrassegnate come non riuscite da Airflow. |
Attività Airflow | Vedi Panoramica dell'ambiente. |
Timeout della pubblicazione di broker Celery |
Il numero totale di AirflowTaskTimeout errori generati durante la pubblicazione delle attività nei broker Celery. Questa metrica corrisponde alla metrica di Airflow celery.task_timeout_error . |
Errori del comando di esecuzione Celery |
Il numero totale di codici di uscita diversi da zero delle attività Celery. Questa metrica corrisponde alla metrica di Airflow celery.execute_command.failure . |
Attività terminate dal sistema | Il numero di attività del flusso di lavoro in cui l'esecutore dell'attività è stato terminato con un SIGKILL (ad esempio a causa di problemi di memoria o di heartbeat dei worker). |
Statistiche del server web
Metrica relativa all'ambiente | Descrizione |
---|---|
Integrità del server web | Vedi Panoramica dell'ambiente. |
Utilizzo CPU server web | Utilizzo totale di core vCPU da parte dei container in esecuzione in tutte le istanze del server web Airflow e limite di vCPU combinato per tutti i server web. |
Utilizzo memoria server web | Utilizzo totale della memoria da parte dei container in esecuzione in tutte le istanze del server web Airflow e limite combinato di vCPU per tutti i server web. |
Utilizzo totale disco server web | Utilizzo totale dello spazio su disco da parte dei container in esecuzione in tutte le istanze del server web di Airflow e limite dello spazio su disco combinato per tutti i server web. |
Statistiche dei database SQL
Metrica relativa all'ambiente | Descrizione |
---|---|
Integrità del database | Vedi Panoramica dell'ambiente. |
Utilizzo CPU database | L'utilizzo di core della CPU da parte delle istanze del database Cloud SQL del tuo ambiente. |
Utilizzo memoria database | L'utilizzo totale della memoria da parte delle istanze del database Cloud SQL del tuo ambiente. |
Utilizzo disco database | L'utilizzo totale della memoria da parte delle istanze del database Cloud SQL del tuo ambiente. |
Connessioni al database | Il numero totale di connessioni attive al database e il limite totale di connessioni. |
Dimensione del database dei metadati Airflow | Dimensioni del database di metadati Airflow. Per ulteriori informazioni sulla gestione del database di metadati Airflow, consulta Pulisci il database Airflow |
Differenza tra tempo di analisi dei DAG e tempo di esecuzione dei DAG
La dashboard di monitoraggio di un ambiente mostra il tempo totale necessario per analizzare tutti i DAG nel tuo ambiente Cloud Composer e il tempo medio necessario per eseguire un DAG.
L'analisi di un DAG e la pianificazione delle attività di un DAG per l'esecuzione sono due operazioni separate eseguite dallo scheduler di Airflow.
Il tempo di analisi dei DAG è la quantità di tempo impiegata dallo scheduler di Airflow per leggere un file DAG e analizzarlo.
Prima che lo scheduler Airflow possa pianificare qualsiasi attività da un DAG, deve analizzare il file DAG per scoprire la struttura del DAG e le attività definite. Dopo l'analisi del file DAG, lo scheduler può iniziare a pianificare le attività dal DAG.
Il tempo di esecuzione del DAG è la somma di tutti i tempi di esecuzione delle attività per un DAG.
Per sapere quanto tempo occorre per eseguire una determinata attività Airflow da un DAG, nell'interfaccia web di Airflow seleziona un DAG e apri la scheda Durata dell'attività. Questa scheda mostra i tempi di esecuzione delle attività per il numero specificato di ultime esecuzioni di DAG.