Monitoraggio delle prestazioni della pipeline con Cloud Profiler

Cloud Profiler è un profiler statistico a basso impatto che raccoglie continuamente informazioni sull'utilizzo della CPU e sull'allocazione della memoria dalle tue applicazioni di produzione. Per maggiori dettagli, consulta Concetti di profilazione. Per risolvere i problemi o monitorare le prestazioni della pipeline, utilizza l'integrazione di Dataflow con Cloud Profiler per identificare le parti del codice della pipeline che consumano più risorse.

Per suggerimenti per la risoluzione dei problemi e strategie di debug per la creazione o l'esecuzione della pipeline Dataflow, consulta Risoluzione dei problemi e debug delle pipeline.

Prima di iniziare

Comprendi i concetti di profilazione e familiarizati con l'interfaccia di Profiler. Per informazioni su come iniziare a utilizzare l'interfaccia di Profiler, consulta Selezionare i profili da analizzare.

L'API Cloud Profiler deve essere abilitata per il progetto prima dell'avvio del job. Viene attivato automaticamente la prima volta che visiti la pagina del Profiler. In alternativa, puoi attivare l'API Cloud Profiler utilizzando lo strumento a riga di comando gcloud Google Cloud CLI o la console Google Cloud .

Per utilizzare Cloud Profiler, il progetto deve avere una quota sufficiente. Inoltre, l'account di servizio worker per il job Dataflow deve disporre delle autorizzazioni appropriate per Profiler. Ad esempio, per creare i profili, l'account di servizio del worker deve disporre dell'autorizzazione cloudprofiler.profiles.create, inclusa nel ruolo IAM Agent Cloud Profiler (roles/cloudprofiler.agent). Per ulteriori informazioni, consulta Controllo dell'accesso con IAM.

Attivare Cloud Profiler per le pipeline Dataflow

Cloud Profiler è disponibile per le pipeline di Dataflow scritte in SDK Apache Beam per Java e Python, versione 2.33.0 o successiva. Le pipeline in Python devono utilizzare Dataflow Runner v2. Cloud Profiler può essere attivato all'avvio della pipeline. L'overhead di CPU e memoria ammortizzato dovrebbe essere inferiore all'1% per le pipeline.

Java

Per abilitare il profiling della CPU, avvia la pipeline con la seguente opzione.

--dataflowServiceOptions=enable_google_cloud_profiler

Per attivare il profiling dell'heap, avvia la pipeline con le seguenti opzioni. La profilazione dell'heap richiede Java 11 o versioni successive.

--dataflowServiceOptions=enable_google_cloud_profiler

--dataflowServiceOptions=enable_google_cloud_heap_sampling

Python

Per utilizzare Cloud Profiler, la pipeline Python deve essere eseguita con Dataflow Runner v2.

Per abilitare il profiling della CPU, avvia la pipeline con la seguente opzione. Il profiling dell'heap non è ancora supportato per Python.

--dataflow_service_options=enable_google_cloud_profiler

Vai

Per attivare la profilazione di CPU e heap, avvia la pipeline con la seguente opzione.

--dataflow_service_options=enable_google_cloud_profiler

Se esegui il deployment delle pipeline dai modelli Dataflow e vuoi attivare Cloud Profiler, specifica i flag enable_google_cloud_profiler e enable_google_cloud_heap_sampling come esperimenti aggiuntivi.

Console

Se utilizzi un modello fornito da Google, puoi specificare i flag nella pagina Crea job da modello di Dataflow nel campo Esperimenti aggiuntivi.

gcloud

Se utilizzi Google Cloud CLI per eseguire i modelli, gcloud dataflow jobs run o gcloud dataflow flex-template run, a seconda del tipo di modello, utilizza l'opzione --additional-experiments per specificare i flag.

API

Se utilizzi l'API REST per eseguire i modelli, a seconda del tipo di modello, specifica i flag utilizzando il campo additionalExperiments dell'ambiente di runtime, RuntimeEnvironment o FlexTemplateRuntimeEnvironment.

Visualizzare i dati di profilazione

Se Cloud Profiler è attivato, nella pagina del job viene visualizzato un link alla pagina di Profiler.

La pagina Job con un link alla pagina Profiler.

Nella pagina Profiler puoi anche trovare i dati di profilazione per la tua pipeline Dataflow. Service è il nome del job e Version è l'ID del job.

Mostra i valori Service e Version per la profilazione di un job Dataflow.

Utilizzo di Cloud Profiler

La pagina Profiler contiene un grafico a fiamma che mostra le statistiche per ogni frame in esecuzione su un worker. In direzione orizzontale, puoi vedere il tempo necessario per l'esecuzione di ogni frame in termini di tempo della CPU. In verticale, puoi vedere le tracce dello stack e il codice in esecuzione in parallelo. Le tracce dello stack sono dominate dal codice dell'infrastruttura del runner. Ai fini del debug, in genere ci interessa l'esecuzione del codice utente, che in genere si trova vicino alle estremità inferiori del grafico. Il codice utente può essere identificato cercando i frame di indicatori, che rappresentano il codice del runner che è noto per chiamare solo il codice utente. Nel caso del runner Beam ParDo, viene creato un livello di adattatore dinamico per invocare la firma del metodo DoFn fornita dall'utente. Questo livello può essere identificato come frame con il suffisso invokeProcessElement. L'immagine seguente mostra una dimostrazione di come trovare un frame del marker.

Un esempio di grafico a forma di fiamma del profiler che mostra un frame dell'indicatore.

Dopo aver fatto clic su un frame dell'indicatore interessante, il grafico a forma di fiamma si concentra sulla traccia dello stack, fornendo una buona idea del codice utente a esecuzione prolungata. Le operazioni più lente possono indicare dove si sono formati colli di bottiglia e presentano opportunità di ottimizzazione. Nell'esempio seguente è possibile vedere che viene utilizzato il raggruppamento globale con un ByteArrayCoder. In questo caso, il codice potrebbe essere un'area ottimale per l'ottimizzazione perché occupa molto tempo della CPU rispetto alle operazioni di ArrayList e HashMap.

Un esempio di analisi dello stack del frame dell'indicatore che mostra le operazioni in esecuzione più lente.

Risolvere i problemi di Cloud Profiler

Se attivi Cloud Profiler e la pipeline non genera dati di profilazione, la causa potrebbe essere una delle seguenti condizioni.

  • La pipeline utilizza una versione precedente dell'SDK Apache Beam. Per utilizzare Cloud Profiler, devi utilizzare la versione 2.33.0 o successive dell'SDK Apache Beam. Puoi visualizzare la versione dell'SDK Apache Beam della pipeline nella pagina del job. Se il job viene creato da modelli Dataflow, i modelli devono utilizzare le versioni dell'SDK supportate.

  • Il progetto sta per esaurire la quota di Cloud Profiler. Puoi visualizzare l'utilizzo della quota dalla pagina delle quote del progetto. Se viene superata la quota di Cloud Profiler, può verificarsi un errore come Failed to collect and upload profile whose profile type is WALL. Il servizio Cloud Profiler rifiuta i dati di profilazione se hai raggiunto la tua quota. Per ulteriori informazioni sulle quote di Cloud Profiler, consulta Quote e limiti.

  • Il job non è stato eseguito per un periodo di tempo sufficiente a generare dati per Cloud Profiler. I job che vengono eseguiti per brevi durate, ad esempio meno di cinque minuti, potrebbero non fornire dati di profilazione sufficienti per consentire a Cloud Profiler di generare risultati.

L'agente Cloud Profiler viene installato durante l'avvio del worker Dataflow. I messaggi di log generati da Cloud Profiler sono disponibili nel tipo di log dataflow.googleapis.com/worker-startup.

Una pagina che mostra i log di Cloud Profiler con un menu aperto che evidenzia il percorso di navigazione: dataflow.googleapis.com/worker-startup.

A volte i dati di profilazione esistono, ma Cloud Profiler non mostra alcun output. Il profiler mostra un messaggio simile a There were profiles collected for the specified time range, but none match the current filters.

Per risolvere il problema, prova i seguenti passaggi per la risoluzione dei problemi.

  • Assicurati che l'intervallo di tempo e l'ora di fine in Profiler includano il tempo trascorso del job.

  • Verifica che nel Profiler sia selezionato il job corretto. Service è il nome del job.

  • Verifica che l'opzione della pipeline job_name abbia lo stesso valore del nome del job nella pagina del job Dataflow.

  • Se hai specificato un argomento service-name quando hai caricato l'agente Profiler, verifica che il nome del servizio sia configurato correttamente.