Utilizzare l'interfaccia di monitoraggio dei job Dataflow

Quando esegui la pipeline utilizzando Dataflow, puoi visualizzare questo job e gli altri utilizzando l'interfaccia di monitoraggio basata sul web di Dataflow. L'interfaccia di monitoraggio ti consente di visualizzare e interagire con i tuoi job Dataflow.

Puoi accedere all'interfaccia di monitoraggio di Dataflow nella console Google Cloud. L'interfaccia di monitoraggio può mostrare:

  • Un elenco di tutti i job Dataflow in esecuzione e di tutti i job eseguiti gli ultimi 30 giorni.
  • Una rappresentazione grafica di ogni pipeline.
  • Dettagli sullo stato del job, sul tipo e sulla versione dell'SDK.
  • Link alle informazioni sui servizi Google Cloud che eseguono la pipeline, come Compute Engine e Cloud Storage.
  • Eventuali errori o avvisi che si verificano durante un job.
  • Diagnostica aggiuntiva per un job.

Puoi visualizzare i visualizzatori dei job nell'interfaccia di monitoraggio di Dataflow. Questi grafici mostrano le metriche per la durata di un job e includono le seguenti informazioni:

  • Visibilità a livello di passaggio per identificare i passaggi che potrebbero causare il ritardo della pipeline.
  • Informazioni statistiche che possono evidenziare comportamenti anomali.
  • Metriche di I/O che possono aiutarti a identificare i colli di bottiglia nelle origini e nei destinazioni.

Accedere all'interfaccia di monitoraggio di Dataflow

Per accedere all'interfaccia di monitoraggio di Dataflow:

  1. Accedi alla console Google Cloud.
  2. Selezionare il tuo progetto Google Cloud.
  3. Apri il menu di navigazione.
  4. In Analytics, fai clic su Dataflow.

Viene visualizzato un elenco di job Dataflow con il relativo stato. Se non vedi alcun job, devi eseguirne uno nuovo. Per scoprire come eseguire un job, consulta la guida rapida di Java, la guida rapida di Python o la guida rapida di Go.

Un elenco di job Dataflow con job in stato di esecuzione, non riuscito e riuscito.
Figura 1: un elenco di job Dataflow nella console Google Cloud con job negli stati Avvio, Non riuscito e Completato.

Un job può avere i seguenti stati:

  • : l'interfaccia di monitoraggio non ha ancora ricevuto uno stato dal servizio Dataflow.
  • In esecuzione: il job è in esecuzione.
  • Avvio…: il job è stato creato, ma il sistema ha bisogno di un po' di tempo per prepararsi prima del lancio.
  • In coda: un job FlexRS è in coda o un job modello flessibile è in fase di avvio (l'operazione potrebbe richiedere diversi minuti).
  • Annullamento in corso…: il job è in fase di annullamento.
  • Annullato: il job è annullato.
  • In esaurimento…: il job è in esaurimento.
  • Svuotato: il job è svuotato.
  • Aggiornamento in corso…: il job è in fase di aggiornamento.
  • Aggiornato: il job è aggiornato.
  • Riuscito: il job è stato completato correttamente.
  • Failed (Non riuscito): il job non è stato completato.

Accedere ai visualizzatori di job

Per accedere ai grafici per il monitoraggio del job, fai clic sul nome del job nell'interfaccia di monitoraggio di Dataflow. Viene visualizzata la pagina Dettagli job, che contiene le seguenti informazioni:

  • Grafico del job: rappresentazione visiva della pipeline
  • Dettagli esecuzione: strumento per ottimizzare il rendimento della pipeline
  • Metriche del job: metriche relative all'esecuzione del job
  • Costo: metriche sul costo stimato del job
  • Scalabilità automatica: metriche relative agli eventi di scalabilità automatica dei job di streaming
  • Riquadro informazioni job: informazioni descrittive sulla pipeline
  • Log dei job: log generati dal servizio Dataflow a livello di job
  • Log dei worker: log generati dal servizio Dataflow a livello di worker
  • Diagnostica: tabella che mostra dove si sono verificati errori nel corso della sequenza temporale scelta e possibili consigli per la pipeline
  • Campionamento dei dati: strumento che consente di osservare i dati in ogni passaggio di una pipeline. Consulta Utilizzare il campionamento dei dati per osservare i dati della pipeline.

Nella pagina Dettagli job, puoi cambiare la visualizzazione del job con le schede Grafico job, Dettagli esecuzione, Metriche job, Costo e Scalabilità automatica.

Grafici dei job

Quando selezioni un job Dataflow specifico, l'interfaccia di monitoraggio fornisce una rappresentazione grafica della pipeline: il grafico del job. La pagina del grafico dei job nella console fornisce anche un riepilogo del job, un log del job e informazioni su ogni passaggio della pipeline. Per maggiori dettagli sui grafici dei job, consulta Grafici dei job Dataflow.

Metriche del job

Puoi visualizzare i grafici nella scheda Job metrics dell'interfaccia web di Dataflow. Ogni metrica è organizzata nelle seguenti dashboard:

Metriche della panoramica

Metriche relative ai flussi di dati (solo pipeline in modalità flusso)

Metriche risorsa

Metriche di input

Metriche di output

Avvisi di Cloud Monitoring

Consulta Creare avvisi di Cloud Monitoring.

Monitoraggio dei costi

La pagina Costo nella console Google Cloud mostra il costo stimato del job Dataflow attuale. I costi stimati vengono calcolati moltiplicando le metriche relative all'utilizzo delle risorse riportate in Cloud Monitoring per il prezzo delle risorse nella regione del job.

Utilizzare il monitoraggio dei costi

Le stime dei costi dei job sono disponibili sia per i job batch che per quelli in streaming. La pagina Costo nella console Google Cloud fornisce le seguenti informazioni:

  • Dettagli sulle risorse che contribuiscono al costo del job e in che misura. Le risorse includono vCPU, memoria, dati elaborati da Dataflow Shuffle o Streaming Engine e utilizzo dei dischi SSD e HDD.
  • Costi relativi a finestre di tempo specifiche, ad esempio: tempo dall'inizio del job, ora precedente, ultime 24 ore, sette giorni precedenti e un intervallo di tempo specificato dall'utente.

Puoi utilizzare gli avvisi di monitoraggio per ricevere notifiche quando i costi del job superano una soglia specificata. Puoi anche utilizzare gli avvisi per apportare modifiche ai job, ad esempio interromperli o annullarli, in base alle soglie impostate.

Per creare una regola di avviso di Cloud Monitoring, fai clic su Crea avviso. Per istruzioni su come configurare questi avvisi, consulta Utilizzare Cloud Monitoring per le pipeline Dataflow.

Limitazioni

Il monitoraggio dei costi di Dataflow non supporta i job Dataflow Prime e le metriche GPU.

Metriche di scalabilità automatica

Puoi visualizzare i grafici di monitoraggio della scalabilità automatica per i job in streaming nell'interfaccia di monitoraggio di Dataflow. Questi grafici mostrano le metriche per la durata di un job della pipeline e includono le seguenti informazioni:

  • Il numero di istanze di worker utilizzate dal job in un determinato momento
  • File di log della scalabilità automatica
  • Il backlog stimato nel tempo
  • Utilizzo medio della CPU nel tempo

Per ulteriori informazioni, consulta Monitorare la scalabilità automatica di Dataflow.

Consigli e diagnostica

Dataflow fornisce suggerimenti per migliorare le prestazioni dei job, ridurre i costi e risolvere gli errori. Questa sezione spiega come esaminare e interpretare i consigli. Tieni presente che alcuni consigli potrebbero non essere pertinenti per il tuo caso d'uso.

Consigli

La scheda Consigli mostra gli approfondimenti di Dataflow relativi alla pipeline. Lo scopo di queste informazioni è identificare le situazioni in cui è possibile apportare miglioramenti a costi e rendimento.

La scheda Consigli per un job Dataflow con suggerimenti di esempio.

La colonna Data aggiornamento indica l'ultima volta che è stato osservato un insight. I consigli vengono archiviati per 30 giorni dalla data di aggiornamento.

Accesso programmatico ai consigli

Per accedere in modo programmatico ai consigli, utilizza l'API Recommender.

Ignorare un consiglio

Puoi ignorare un consiglio nell'hub dei suggerimenti per il tuo progetto.

Per ignorare un consiglio:

  1. Nella console Google Cloud, apri il menu di navigazione.
  2. Seleziona Home, quindi Consigli.
  3. Nella scheda Diagnostica di Dataflow, fai clic su Visualizza tutto.
  4. Seleziona il consiglio che vuoi ignorare e fai clic su Ignora.

Diagnostica

La scheda Diagnostica del riquadro Log raccoglie e mostra determinate voci di log prodotte nelle pipeline. Queste voci includono messaggi che indicano un probabile problema con la pipeline e messaggi di errore con analisi dello stack. Le voci di log raccolte vengono deduplicate e combinate in gruppi di errori.

La scheda Diagnostica per un job Dataflow con un gruppo di errori relativo a un errore di servizio.

Il report sugli errori include le seguenti informazioni:

  • Un elenco di errori con messaggi di errore
  • Il numero di volte in cui si è verificato ciascun errore
  • Un istogramma che indica quando si è verificato ogni errore
  • L'ora in cui si è verificato l'errore più di recente
  • L'ora in cui si è verificato per la prima volta l'errore
  • Lo stato dell'errore

Per visualizzare il report sugli errori relativo a un errore specifico, fai clic sulla descrizione nella colonna Errori. Viene visualizzata la pagina Report sugli errori. Se si tratta di un errore di servizio, viene visualizzato un link alla guida alla risoluzione dei problemi.

La pagina dei dettagli del gruppo di errori per un errore del servizio Dataflow.

Per scoprire di più sulla pagina, consulta Visualizzare e filtrare gli errori.

Disattivare la notifica di un errore

Per disattivare l'audio di un messaggio di errore:

  1. Apri la scheda Diagnostica.
  2. Fai clic sull'errore che vuoi disattivare.
  3. Apri il menu Stato risoluzione. Gli stati hanno le seguenti etichette: Aperto, Confermato, Risolto o Disattivato.
  4. Seleziona Disattivato.

Passaggi successivi