Utilizza l'interfaccia di monitoraggio dei job Dataflow

Quando esegui la pipeline utilizzando il servizio gestito da Dataflow, puoi visualizzare il job in questione e tutti gli altri utilizzando l'interfaccia di monitoraggio basata sul web di Dataflow. L'interfaccia di monitoraggio consente di visualizzare e interagire con i job Dataflow.

Puoi accedere all'interfaccia di monitoraggio di Dataflow utilizzando la console Google Cloud. L'interfaccia di monitoraggio può mostrare:

  • Un elenco di tutti i job Dataflow in esecuzione e di tutti i job eseguiti negli ultimi 30 giorni.
  • Una rappresentazione grafica di ogni pipeline.
  • Dettagli sullo stato del job, del tipo e della versione dell'SDK.
  • Link a informazioni sui servizi Google Cloud che eseguono la pipeline, ad esempio Compute Engine e Cloud Storage.
  • Eventuali errori o avvisi che si verificano durante un job.
  • Diagnostica aggiuntiva per un job.

Puoi visualizzare i visualizzatori dei job nell'interfaccia di monitoraggio di Dataflow. Questi grafici mostrano le metriche relative alla durata di un job di pipeline e includono le seguenti informazioni:

  • Visibilità a livello di passaggio per identificare i passaggi che potrebbero causare il ritardo della pipeline.
  • Informazioni statistiche che possono mettere in evidenza comportamenti anomali.
  • Metriche di I/O che possono aiutare a identificare i colli di bottiglia nelle origini e nei sink.

Accedi all'interfaccia di monitoraggio di Dataflow

Per accedere all'interfaccia di monitoraggio di Dataflow, segui questi passaggi:

  1. Accedi alla console Google Cloud.
  2. Selezionare il tuo progetto Google Cloud.
  3. Apri il menu di navigazione.
  4. In Analytics, fai clic su Dataflow.

Viene visualizzato un elenco di job Dataflow con il relativo stato. Se non vedi alcun job, devi eseguirne uno nuovo. Per scoprire come eseguire un job, consulta la guida rapida di Java, la guida rapida di Python o la guida rapida di Go.

Un elenco di job Dataflow con job in stato In esecuzione, Non riuscito e Riuscito.
Figura 1: un elenco di job Dataflow nella console Google Cloud con job in stato In esecuzione, Non riuscito e Riuscito.

Un job può avere i seguenti stati:

  • : l'interfaccia di monitoraggio non ha ancora ricevuto uno stato dal servizio Dataflow.
  • In esecuzione: il job è in esecuzione.
  • Avvio in corso...: il job viene creato, ma il sistema ha bisogno di un po' di tempo per prepararsi prima dell'avvio.
  • In coda: un job FlexRS è in coda o è in fase di avvio un job di modello Flex (l'operazione potrebbe richiedere diversi minuti).
  • Annullamento in corso...: il job è in fase di annullamento.
  • Annullato: il job viene annullato.
  • Svuotamento in corso...: il job è in svuotamento.
  • Svuotato: il job è stato svuotato.
  • Aggiornamento in corso...: il lavoro è in aggiornamento.
  • Aggiornato: il lavoro è stato aggiornato.
  • Riuscito: il job è stato completato correttamente.
  • Non riuscito: il job non è stato completato.

Per ulteriori informazioni su una pipeline, fai clic sul nome del job.

Accedi ai visualizzatori dei job

Per accedere ai grafici per il monitoraggio del job, fai clic sul nome del job nell'interfaccia di monitoraggio di Dataflow. Viene visualizzata la pagina Dettagli job, che contiene le seguenti informazioni:

  • Grafico dei job: rappresentazione visiva della tua pipeline
  • Dettagli di esecuzione: strumento per ottimizzare le prestazioni della pipeline
  • Metriche del job: metriche relative all'esecuzione del job
  • Costo: metriche sul costo stimato del job
  • Scalabilità automatica: metriche relative agli eventi di scalabilità automatica dei job di flussi di dati.
  • Riquadro Informazioni job: informazioni descrittive sulla pipeline
  • Log del job: log generati dal servizio Dataflow a livello di job.
  • Log dei worker: log generati dal servizio Dataflow a livello di worker
  • Diagnostica: tabella che mostra dove si sono verificati gli errori lungo la sequenza temporale scelta e i possibili suggerimenti per la pipeline
  • Campionamento dei dati: strumento che consente di osservare i dati in ogni passaggio di una pipeline. Consulta Utilizzare il campionamento dei dati per osservare i dati della pipeline.

Nella pagina Dettagli job, puoi cambiare la visualizzazione del job con le schede Grafico job, Dettagli esecuzione, Metriche job, Costo e Scalabilità automatica.

Grafici job

Quando selezioni un job Dataflow specifico, l'interfaccia di monitoraggio fornisce una rappresentazione grafica della pipeline: il grafico del job. La pagina del grafico dei job nella console fornisce anche un riepilogo del job, un log del job e informazioni su ogni passaggio della pipeline. Per ulteriori dettagli sui grafici dei job, vedi Grafico dei job di Dataflow.

Metriche job

Puoi visualizzare i grafici nella scheda Job metrics dell'interfaccia web di Dataflow. Ogni metrica è organizzata nelle seguenti dashboard:

Metriche della panoramica

Metriche relative ai flussi di dati (solo pipeline in modalità flusso)

Metriche risorsa

Metriche di input

Metriche di output

Avvisi di Cloud Monitoring

Vedi Creare avvisi di Cloud Monitoring.

Monitoraggio dei costi

La pagina Costo nella console Google Cloud mostra il costo stimato del job Dataflow attuale. I costi stimati vengono calcolati moltiplicando le metriche di utilizzo delle risorse mostrate in Cloud Monitoring per il prezzo delle risorse nella regione del job.

Utilizza il monitoraggio dei costi

Sono disponibili stime dei costi dei job sia per i job batch che per quelli in modalità flusso. La pagina Costo nella console Google Cloud fornisce le seguenti informazioni:

  • Dettagli su quali risorse contribuiscono al costo del job e in che misura. Le risorse includono vCPU, memoria, dati elaborati da Dataflow Shuffle o dati di Streaming Engine, nonché utilizzo dei dischi SSD e HDD.
  • Costi in finestre di tempo specifiche, ad esempio il tempo dall'inizio del job, l'ora precedente, le ultime 24 ore, i sette giorni precedenti e un intervallo di tempo specificato dall'utente.

Puoi utilizzare gli avvisi di monitoraggio per ricevere notifiche quando i costi del job superano una soglia specificata. Puoi utilizzare gli avvisi anche per apportare modifiche ai job, ad esempio interrompendo o annullando i job, in base alle soglie che hai impostato.

Per creare una regola di avviso di Cloud Monitoring, fai clic su Crea avviso. Per istruzioni su come configurare questi avvisi, consulta Utilizzare le pipeline di Cloud Monitoring per Dataflow.

Limitazioni

Il monitoraggio dei costi di Dataflow non supporta i job Dataflow Prime e le metriche GPU.

Metriche di scalabilità automatica

Puoi visualizzare i grafici di monitoraggio della scalabilità automatica per i job di flusso all'interno dell'interfaccia di monitoraggio di Dataflow. Questi grafici mostrano le metriche relative alla durata di un job di pipeline e includono le seguenti informazioni:

  • Il numero di istanze worker utilizzate dal job in qualsiasi momento
  • Scalabilità automatica dei file di log
  • Il backlog stimato nel tempo
  • Utilizzo medio della CPU nel tempo

Per ulteriori informazioni, consulta Monitorare la scalabilità automatica di Dataflow.

Consigli e diagnostica

Dataflow fornisce suggerimenti per migliorare le prestazioni dei job, ridurre i costi e risolvere gli errori. Questa sezione spiega come rivedere e interpretare i consigli. Tieni presente che alcuni consigli potrebbero non essere pertinenti per il tuo caso d'uso.

Suggerimenti

La scheda Consigli mostra insight di Dataflow relativi alla pipeline. L'obiettivo di queste informazioni è identificare le situazioni in cui è possibile apportare miglioramenti in termini di costi e prestazioni.

La scheda Suggerimenti per un job Dataflow con suggerimenti di esempio.

La colonna Data aggiornamento indica l'ultima volta in cui è stato osservato un approfondimento. I consigli verranno archiviati per 30 giorni a partire dalla Data di aggiornamento.

Accesso programmatico ai suggerimenti

Per l'accesso programmatico ai suggerimenti, utilizza l'API motore per suggerimenti.

Ignorare un consiglio

Puoi ignorare un suggerimento nell'hub dei suggerimenti per il tuo progetto.

Per ignorare un suggerimento, fai clic sul menu di navigazione in alto a sinistra nella console Google Cloud e seleziona Home page > Consigli. Nella scheda Diagnostica Dataflow, fai clic su Visualizza tutto, seleziona il consiglio da ignorare e fai clic su Ignora.

Diagnostica

La scheda Diagnostica del riquadro Log raccoglie e visualizza alcune voci di log prodotte nelle tue pipeline. Sono inclusi messaggi che indicano un probabile problema della pipeline e messaggi di errore con le analisi dello stack. Le voci di log raccolte vengono deduplicate e combinate in gruppi di errori.

La scheda Diagnostica per un job Dataflow con un gruppo di errori di servizio.

Il report sugli errori include le seguenti informazioni:

  • Un elenco di errori con messaggi di errore.
  • Il numero di volte in cui si è verificato ciascun errore.
  • Un istogramma che indica quando si è verificato ciascun errore.
  • L'ora in cui si è verificato l'errore più di recente.
  • L'ora in cui si è verificato per la prima volta l'errore.
  • Lo stato dell'errore.

Per visualizzare il report relativo a un errore specifico, fai clic sulla descrizione nella colonna Errori. Viene visualizzata la pagina Segnalazione degli errori. Se si tratta di un errore di servizio, verrà visualizzato un link aggiuntivo con la documentazione, inclusi i passaggi aggiuntivi ("Guida alla risoluzione dei problemi").

La pagina dei dettagli del gruppo di errori per un errore del servizio Dataflow.

Per saperne di più sulla pagina, consulta la sezione Errori di visualizzazione.

Disattivare un errore

Per disattivare un messaggio di errore, apri la scheda Diagnostica, fai clic sull'errore che vuoi disattivare, apri il menu dello stato della risoluzione (con etichetta Aperta | Confermata | Risolto | Disattivata) e seleziona Disattivata.

Passaggi successivi