Utilizza l'interfaccia di monitoraggio del job di Dataflow

Quando esegui la pipeline utilizzando Dataflow, puoi visualizzare questo job e gli altri utilizzando l'interfaccia di monitoraggio basata sul web di Dataflow. L'interfaccia di monitoraggio ti consente di visualizzare e interagire con i tuoi job Dataflow.

Puoi accedere all'interfaccia di monitoraggio di Dataflow nella console Google Cloud. L'interfaccia di monitoraggio può mostrare:

  • Un elenco di tutti i job Dataflow in esecuzione e di tutti i job eseguiti negli ultimi 30 giorni.
  • Una rappresentazione grafica di ciascuna pipeline.
  • Dettagli sullo stato del job, sul tipo e sulla versione dell'SDK.
  • Link a informazioni sui servizi Google Cloud che eseguono la tua pipeline. ad esempio Compute Engine e Cloud Storage.
  • Eventuali errori o avvisi che si verificano durante un job.
  • Diagnostica aggiuntiva per un job.

Puoi visualizzare i visualizzatori dei job nel monitoraggio di Dataflow a riga di comando. Questi grafici mostrano le metriche per l'intera durata di un job e includono le seguenti informazioni:

  • Visibilità a livello di passaggio per identificare i passaggi che potrebbero causare il ritardo della pipeline.
  • Informazioni statistiche che possono evidenziare comportamenti anomali.
  • Metriche I/O che possono aiutarti a identificare i colli di bottiglia nelle origini e nei destinazioni.

Accedi all'interfaccia di monitoraggio di Dataflow

Per accedere all'interfaccia di monitoraggio di Dataflow, segui questi passaggi:

  1. Accedi alla console Google Cloud.
  2. Selezionare il tuo progetto Google Cloud.
  3. Apri il menu di navigazione.
  4. In Analytics, fai clic su Dataflow.

Viene visualizzato un elenco di job Dataflow con il relativo stato. Se non vedi nessun job, devi eseguire un nuovo job. Per scoprire come eseguire un job, consulta la Guida rapida di Java, guida rapida di Python, oppure Guida rapida di Go.

Un elenco di job Dataflow con job in stato In esecuzione, Non riuscito e Riuscito.
Figura 1: un elenco di job Dataflow nella Console Google Cloud con i job nel percorso In fase di avvio, Stati Non riuscita e Riuscito.

Un job può avere i seguenti stati:

  • : l'interfaccia di monitoraggio non ha ancora ricevuto uno stato dal servizio Dataflow.
  • In esecuzione: il job è in esecuzione.
  • Avvio in corso...: il job è stato creato, ma il sistema richiede del tempo per per prepararti prima del lancio.
  • In coda: un job FlexRS è in coda o un job modello flessibile è in fase di avvio (l'operazione potrebbe richiedere diversi minuti).
  • Annullamento in corso...: il job è in fase di annullamento.
  • Annullato: il job è annullato.
  • In esaurimento…: il job è in esaurimento.
  • Svuotato: il job è svuotato.
  • Aggiornamento in corso...: il job è in fase di aggiornamento.
  • Aggiornato: il job viene aggiornato.
  • Succeeded (Riuscito): il job è stato completato correttamente.
  • Failed (Non riuscito): il job non è stato completato.

Accedere ai visualizzatori di job

Per accedere ai grafici per il monitoraggio del job, fai clic sul nome del job nell'interfaccia di monitoraggio di Dataflow. Viene visualizzata la pagina Dettagli job, che contiene le seguenti informazioni:

  • Grafico del job: rappresentazione visiva della pipeline
  • Dettagli esecuzione: strumento per ottimizzare il rendimento della pipeline
  • Metriche del job: metriche relative all'esecuzione del job
  • Costo: metriche sul costo stimato del job
  • Scalabilità automatica: metriche relative agli eventi di scalabilità automatica dei job di streaming
  • Riquadro informazioni job: informazioni descrittive sulla pipeline
  • Log dei job: log generati dal servizio Dataflow a livello di job
  • Log dei worker: log generati dal servizio Dataflow a livello di worker
  • Diagnostica: tabella che mostra dove si sono verificati gli errori durante la la sequenza temporale scelta e i possibili suggerimenti per la pipeline
  • Campionamento dei dati: strumento che consente di osservare i dati in ogni fase di una pipeline. Consulta Utilizzare il campionamento dei dati per osservare i dati della pipeline.

Nella pagina Dettagli job, puoi cambiare la visualizzazione del job con le schede Grafico job, Dettagli esecuzione, Metriche job, Costo e Scalabilità automatica.

Grafici dei job

Quando selezioni un job Dataflow specifico, l'interfaccia di monitoraggio fornisce una rappresentazione grafica della pipeline: il grafico del job. La pagina del grafico del job nella console fornisce anche un riepilogo del job, una log del job e informazioni su ogni passaggio della pipeline. Per maggiori dettagli sui grafici dei job, consulta Grafici dei job Dataflow.

Metriche del job

Puoi visualizzare i grafici nella scheda Job metrics di Dataflow web a riga di comando. Ogni metrica è organizzata nelle seguenti dashboard:

Metriche della panoramica

Metriche relative ai flussi di dati (solo pipeline in modalità flusso)

Metriche risorsa

Metriche di input

Metriche di output

Avvisi di Cloud Monitoring

Vedi Creare avvisi di Cloud Monitoring.

Monitoraggio dei costi

La pagina Costo nella console Google Cloud mostra il costo stimato del tuo attuale Dataflow. un lavoro. I costi stimati vengono calcolati moltiplicando le metriche di utilizzo delle risorse come mostrato in Cloud Monitoring il prezzo delle risorse nella regione del job.

Utilizzare il monitoraggio dei costi

Le stime dei costi dei job sono disponibili sia per i job batch che per quelli in streaming. La pagina Costo nella console Google Cloud fornisce le seguenti informazioni:

  • Dettagli su quali risorse contribuiscono al costo del job e di quanto. Le risorse includono vCPU, memoria, dati elaborati tramite Dataflow Shuffle dati elaborati da Streaming Engine e utilizzo di dischi SSD e HDD.
  • Costi relativi a finestre di tempo specifiche, ad esempio: tempo dall'inizio del job, ora precedente, ultime 24 ore, sette giorni precedenti e un intervallo di tempo specificato dall'utente.

Puoi utilizzare gli avvisi di monitoraggio per ricevere notifiche quando i costi del job superano una soglia specificata. Puoi anche utilizzare gli avvisi per apportare modifiche ai job, ad esempio interromperli o annullarli, in base alle soglie impostate.

Per creare una regola di avviso di Cloud Monitoring, fai clic su Crea avviso. Per istruzioni su come configurare questi avvisi, consulta Usa Cloud Monitoring per le pipeline Dataflow.

Limitazioni

Il monitoraggio dei costi di Dataflow non supporta i job Dataflow Prime e le metriche GPU.

Metriche di scalabilità automatica

Puoi visualizzare i grafici di monitoraggio della scalabilità automatica per i job in streaming nell'interfaccia di monitoraggio di Dataflow. Questi grafici mostrano le metriche per la durata di un job della pipeline e includi le seguenti informazioni:

  • Il numero di istanze worker utilizzate dal job in qualsiasi momento
  • File di log della scalabilità automatica
  • Il backlog stimato nel tempo
  • Utilizzo medio della CPU nel tempo

Per ulteriori informazioni, consulta Monitorare la scalabilità automatica di Dataflow.

Consigli e diagnostica

Dataflow fornisce suggerimenti per migliorare le prestazioni dei job, ridurre i costi e risolvere gli errori. Questa sezione spiega come esaminare e interpretare i consigli. Tieni presente che alcuni consigli potrebbero non essere pertinenti per il tuo caso d'uso.

Consigli

La scheda Consigli mostra gli approfondimenti di Dataflow relativi alla pipeline. L'obiettivo di questi approfondimenti è identificare le situazioni in cui potrebbero essere apportati miglioramenti a costi e prestazioni.

La scheda Recommendations per un job Dataflow con suggerimenti di esempio.

La colonna Data aggiornamento indica l'ultima volta che è stato osservato un insight. I consigli vengono archiviati per 30 giorni dalla Data dell'aggiornamento.

Accesso programmatico ai consigli

Per l'accesso programmatico ai suggerimenti, utilizza l'API Recommender.

Ignorare un consiglio

Puoi ignorare un consiglio nell'hub dei suggerimenti per il tuo progetto.

Per ignorare un consiglio:

  1. Nella console Google Cloud, apri il menu di navigazione.
  2. Seleziona Home e poi Consigli.
  3. Nella scheda Diagnostica Dataflow, fai clic su Visualizza tutto.
  4. Seleziona il consiglio che vuoi ignorare e fai clic su Ignora.

Diagnostica

La scheda Diagnostica del riquadro Log raccoglie e visualizza determinati log generate nelle pipeline. Queste voci includono messaggi che indicano un probabile problema con la pipeline e messaggi di errore con analisi dello stack. Le voci di log raccolte vengono deduplicate e combinate in gruppi di errori.

La scheda Diagnostica per un job Dataflow con un gruppo di errori relativo a un errore di servizio.

Il report sugli errori include le seguenti informazioni:

  • Un elenco di errori con messaggi di errore
  • Il numero di volte in cui si è verificato ogni errore
  • Un istogramma che indica quando si è verificato ciascun errore
  • L'ora in cui si è verificato l'errore più di recente
  • L'ora in cui si è verificato per la prima volta l'errore
  • Lo stato dell'errore

Per visualizzare il report sugli errori relativo a un errore specifico, fai clic sulla descrizione nella colonna Errori. Viene visualizzata la pagina Report sugli errori. Se si tratta di un errore di servizio, viene visualizzato un link alla guida alla risoluzione dei problemi.

La pagina dei dettagli del gruppo di errori per un errore del servizio Dataflow.

Per scoprire di più sulla pagina, consulta Visualizzare e filtrare gli errori.

Disattivazione di un errore

Per disattivare un messaggio di errore:

  1. Apri la scheda Diagnostica.
  2. Fai clic sull'errore che vuoi disattivare.
  3. Apri il menu Stato risoluzione. Gli stati hanno le seguenti etichette: Aperto, Confermato, Risolto o Disattivato.
  4. Seleziona Disattivato.

Passaggi successivi