Quando esegui la pipeline utilizzando il servizio gestito da Dataflow, puoi visualizzare il job in questione e tutti gli altri utilizzando l'interfaccia di monitoraggio basata sul web di Dataflow. L'interfaccia di monitoraggio consente di visualizzare e interagire con i job Dataflow.
Puoi accedere all'interfaccia di monitoraggio di Dataflow utilizzando la console Google Cloud. L'interfaccia di monitoraggio può mostrare:
- Un elenco di tutti i job Dataflow in esecuzione e di tutti i job eseguiti negli ultimi 30 giorni.
- Una rappresentazione grafica di ogni pipeline.
- Dettagli sullo stato del job, del tipo e della versione dell'SDK.
- Link a informazioni sui servizi Google Cloud che eseguono la pipeline, ad esempio Compute Engine e Cloud Storage.
- Eventuali errori o avvisi che si verificano durante un job.
- Diagnostica aggiuntiva per un job.
Puoi visualizzare i visualizzatori dei job nell'interfaccia di monitoraggio di Dataflow. Questi grafici mostrano le metriche relative alla durata di un job di pipeline e includono le seguenti informazioni:
- Visibilità a livello di passaggio per identificare i passaggi che potrebbero causare il ritardo della pipeline.
- Informazioni statistiche che possono mettere in evidenza comportamenti anomali.
- Metriche di I/O che possono aiutare a identificare i colli di bottiglia nelle origini e nei sink.
Accedi all'interfaccia di monitoraggio di Dataflow
Per accedere all'interfaccia di monitoraggio di Dataflow, segui questi passaggi:
- Accedi alla console Google Cloud.
- Selezionare il tuo progetto Google Cloud.
- Apri il menu di navigazione.
- In Analytics, fai clic su Dataflow.
Viene visualizzato un elenco di job Dataflow con il relativo stato. Se non vedi alcun job, devi eseguirne uno nuovo. Per scoprire come eseguire un job, consulta la guida rapida di Java, la guida rapida di Python o la guida rapida di Go.
Un job può avere i seguenti stati:
- —: l'interfaccia di monitoraggio non ha ancora ricevuto uno stato dal servizio Dataflow.
- In esecuzione: il job è in esecuzione.
- Avvio in corso...: il job viene creato, ma il sistema ha bisogno di un po' di tempo per prepararsi prima dell'avvio.
- In coda: un job FlexRS è in coda o è in fase di avvio un job di modello Flex (l'operazione potrebbe richiedere diversi minuti).
- Annullamento in corso...: il job è in fase di annullamento.
- Annullato: il job viene annullato.
- Svuotamento in corso...: il job è in svuotamento.
- Svuotato: il job è stato svuotato.
- Aggiornamento in corso...: il lavoro è in aggiornamento.
- Aggiornato: il lavoro è stato aggiornato.
- Riuscito: il job è stato completato correttamente.
- Non riuscito: il job non è stato completato.
Per ulteriori informazioni su una pipeline, fai clic sul nome del job.
Accedi ai visualizzatori dei job
Per accedere ai grafici per il monitoraggio del job, fai clic sul nome del job nell'interfaccia di monitoraggio di Dataflow. Viene visualizzata la pagina Dettagli job, che contiene le seguenti informazioni:
- Grafico dei job: rappresentazione visiva della tua pipeline
- Dettagli di esecuzione: strumento per ottimizzare le prestazioni della pipeline
- Metriche del job: metriche relative all'esecuzione del job
- Costo: metriche sul costo stimato del job
- Scalabilità automatica: metriche relative agli eventi di scalabilità automatica dei job di flussi di dati.
- Riquadro Informazioni job: informazioni descrittive sulla pipeline
- Log del job: log generati dal servizio Dataflow a livello di job.
- Log dei worker: log generati dal servizio Dataflow a livello di worker
- Diagnostica: tabella che mostra dove si sono verificati gli errori lungo la sequenza temporale scelta e i possibili suggerimenti per la pipeline
- Campionamento dei dati: strumento che consente di osservare i dati in ogni passaggio di una pipeline. Consulta Utilizzare il campionamento dei dati per osservare i dati della pipeline.
Nella pagina Dettagli job, puoi cambiare la visualizzazione del job con le schede Grafico job, Dettagli esecuzione, Metriche job, Costo e Scalabilità automatica.
Grafici job
Quando selezioni un job Dataflow specifico, l'interfaccia di monitoraggio fornisce una rappresentazione grafica della pipeline: il grafico del job. La pagina del grafico dei job nella console fornisce anche un riepilogo del job, un log del job e informazioni su ogni passaggio della pipeline. Per ulteriori dettagli sui grafici dei job, vedi Grafico dei job di Dataflow.
Metriche job
Puoi visualizzare i grafici nella scheda Job metrics
dell'interfaccia web di Dataflow. Ogni metrica è organizzata nelle seguenti dashboard:
Metriche della panoramica
Metriche relative ai flussi di dati (solo pipeline in modalità flusso)
- Aggiornamento dei dati (con e senza Streaming Engine)
- Latenza di sistema (con e senza Streaming Engine)
- Arresto
- Elaborazione in corso (solo Streaming Engine)
- Parallelismo (solo Streaming Engine)
- Persistenza (solo Streaming Engine)
- Duplicati (solo Streaming Engine)
- Timer (solo Streaming Engine)
Metriche risorsa
Metriche di input
Metriche di output
Avvisi di Cloud Monitoring
Vedi Creare avvisi di Cloud Monitoring.
Monitoraggio dei costi
La pagina Costo nella console Google Cloud mostra il costo stimato del job Dataflow attuale. I costi stimati vengono calcolati moltiplicando le metriche di utilizzo delle risorse mostrate in Cloud Monitoring per il prezzo delle risorse nella regione del job.
Utilizza il monitoraggio dei costi
Sono disponibili stime dei costi dei job sia per i job batch che per quelli in modalità flusso. La pagina Costo nella console Google Cloud fornisce le seguenti informazioni:
- Dettagli su quali risorse contribuiscono al costo del job e in che misura. Le risorse includono vCPU, memoria, dati elaborati da Dataflow Shuffle o dati di Streaming Engine, nonché utilizzo dei dischi SSD e HDD.
- Costi in finestre di tempo specifiche, ad esempio il tempo dall'inizio del job, l'ora precedente, le ultime 24 ore, i sette giorni precedenti e un intervallo di tempo specificato dall'utente.
Puoi utilizzare gli avvisi di monitoraggio per ricevere notifiche quando i costi del job superano una soglia specificata. Puoi utilizzare gli avvisi anche per apportare modifiche ai job, ad esempio interrompendo o annullando i job, in base alle soglie che hai impostato.
Per creare una regola di avviso di Cloud Monitoring, fai clic su Crea avviso. Per istruzioni su come configurare questi avvisi, consulta Utilizzare le pipeline di Cloud Monitoring per Dataflow.
Limitazioni
Il monitoraggio dei costi di Dataflow non supporta i job Dataflow Prime e le metriche GPU.
Metriche di scalabilità automatica
Puoi visualizzare i grafici di monitoraggio della scalabilità automatica per i job di flusso all'interno dell'interfaccia di monitoraggio di Dataflow. Questi grafici mostrano le metriche relative alla durata di un job di pipeline e includono le seguenti informazioni:
- Il numero di istanze worker utilizzate dal job in qualsiasi momento
- Scalabilità automatica dei file di log
- Il backlog stimato nel tempo
- Utilizzo medio della CPU nel tempo
Per ulteriori informazioni, consulta Monitorare la scalabilità automatica di Dataflow.
Consigli e diagnostica
Dataflow fornisce suggerimenti per migliorare le prestazioni dei job, ridurre i costi e risolvere gli errori. Questa sezione spiega come rivedere e interpretare i consigli. Tieni presente che alcuni consigli potrebbero non essere pertinenti per il tuo caso d'uso.
Suggerimenti
La scheda Consigli mostra insight di Dataflow relativi alla pipeline. L'obiettivo di queste informazioni è identificare le situazioni in cui è possibile apportare miglioramenti in termini di costi e prestazioni.
La colonna Data aggiornamento indica l'ultima volta in cui è stato osservato un approfondimento. I consigli verranno archiviati per 30 giorni a partire dalla Data di aggiornamento.
Accesso programmatico ai suggerimenti
Per l'accesso programmatico ai suggerimenti, utilizza l'API motore per suggerimenti.
Ignorare un consiglio
Puoi ignorare un suggerimento nell'hub dei suggerimenti per il tuo progetto.
Per ignorare un suggerimento, fai clic sul menu di navigazione in alto a sinistra nella console Google Cloud e seleziona Home page > Consigli. Nella scheda Diagnostica Dataflow, fai clic su Visualizza tutto, seleziona il consiglio da ignorare e fai clic su Ignora.
Diagnostica
La scheda Diagnostica del riquadro Log raccoglie e visualizza alcune voci di log prodotte nelle tue pipeline. Sono inclusi messaggi che indicano un probabile problema della pipeline e messaggi di errore con le analisi dello stack. Le voci di log raccolte vengono deduplicate e combinate in gruppi di errori.
Il report sugli errori include le seguenti informazioni:
- Un elenco di errori con messaggi di errore.
- Il numero di volte in cui si è verificato ciascun errore.
- Un istogramma che indica quando si è verificato ciascun errore.
- L'ora in cui si è verificato l'errore più di recente.
- L'ora in cui si è verificato per la prima volta l'errore.
- Lo stato dell'errore.
Per visualizzare il report relativo a un errore specifico, fai clic sulla descrizione nella colonna Errori. Viene visualizzata la pagina Segnalazione degli errori. Se si tratta di un errore di servizio, verrà visualizzato un link aggiuntivo con la documentazione, inclusi i passaggi aggiuntivi ("Guida alla risoluzione dei problemi").
Per saperne di più sulla pagina, consulta la sezione Errori di visualizzazione.
Disattivare un errore
Per disattivare un messaggio di errore, apri la scheda Diagnostica, fai clic sull'errore che vuoi disattivare, apri il menu dello stato della risoluzione (con etichetta Aperta | Confermata | Risolto | Disattivata) e seleziona Disattivata.
Passaggi successivi
Scopri come utilizzare i dettagli di esecuzione per ottimizzare un job Dataflow
Esplora Cloud Monitoring per creare avvisi e visualizzare le metriche Dataflow, incluse quelle personalizzate
Scopri di più sulla creazione di pipeline di dati pronte per la produzione.