Strumenti di monitoraggio e risoluzione dei problemi di Dataproc

Introduzione

Dataproc è un servizio completamente gestito e a elevata scalabilità per l'esecuzione di piattaforme di elaborazione distribuita open source come Apache Hadoop, Apache Spark, Apache Flink e Trino. Puoi utilizzare i file e gli strumenti descritti nelle sezioni seguenti per risolvere i problemi e monitorare i cluster e i job Dataproc.

Interfacce web open source

Molti componenti open source del cluster Dataproc, come Apache Hadoop e Apache Spark, forniscono interfacce web. Queste interfacce possono essere utilizzate per monitorare le risorse del cluster e il rendimento dei job. Ad esempio, puoi utilizzare l'interfaccia utente di YARN Resource Manager per visualizzare l'allocazione delle risorse dell'applicazione YARN in un cluster Dataproc.

Server di cronologia permanente

Le interfacce web open source in esecuzione su un cluster sono disponibili quando il cluster è in esecuzione, ma vengono interrotte quando lo elimini. Per visualizzare i dati del cluster e dei job dopo l'eliminazione di un cluster, puoi creare un server di cronologia permanente (PHS).

Esempio: riscontri un errore o un rallentamento del job che vuoi analizzare. Puoi interrompere o eliminare il cluster di job, quindi visualizzare e analizzare i dati della cronologia dei job utilizzando il tuo PHS.

Dopo aver creato un PHS, lo attivi su un cluster Dataproc o su un carico di lavoro batch Dataproc Serverless quando crei il cluster o invii il carico di lavoro batch. Un PHS può accedere ai dati storici dei job eseguiti su più cluster, consentendoti di monitorare i job in un progetto anziché le UI separate in esecuzione su diversi cluster.

Log Dataproc

Dataproc raccoglie i log generati da Apache Hadoop, Spark, Hive, Zookeeper e altri sistemi open source in esecuzione sui tuoi cluster e li invia a Logging. Questi log sono raggruppati in base all'origine, il che ti consente di selezionare e visualizzare i log di tuo interesse: ad esempio, i log di YARN NodeManager e Spark Executor generati in un cluster sono etichettati separatamente. Consulta Log di Dataproc per ulteriori informazioni sui contenuti e sulle opzioni dei log di Dataproc.

Cloud Logging

Logging è un sistema di gestione dei log completamente gestito e in tempo reale. Fornisce spazio di archiviazione per i log importati dai servizi Google Cloud e strumenti per cercare, filtrare e analizzare i log su larga scala. I cluster Dataproc generano più log, tra cui i log dell'agente di servizio Dataproc, i log di avvio del cluster e i log dei componenti OSS, come i log di NodeManager YARN.

La registrazione è abilitata per impostazione predefinita nei cluster Dataproc e nei carichi di lavoro batch Dataproc Serverless. I log vengono esportati periodicamente in Logging, dove rimangono dopo l'eliminazione del cluster o il completamento del carico di lavoro.

Metriche Dataproc

Le metriche dei cluster e dei job di Dataproc, con prefisso dataproc.googleapis.com/, sono costituite da dati delle serie temporali che forniscono informazioni sul rendimento di un cluster, ad esempio l'utilizzo della CPU o lo stato del job. Le metriche personalizzate di Dataproc, con prefisso custom.googleapis.com/, includono le metriche emesse dai sistemi open source in esecuzione nel cluster, come la metrica YARN running applications. Acquisire informazioni sulle metriche di Dataproc puoi aiutarti a configurare i cluster in modo efficiente. La configurazione di avvisi basati su metriche può aiutarti a riconoscere e rispondere rapidamente ai problemi.

Le metriche dei cluster e dei job di Dataproc vengono raccolte per impostazione predefinita senza costi. La raccolta delle metriche personalizzate viene addebitata ai clienti. Puoi abilitare la raccolta delle metriche personalizzate quando crei un cluster. La raccolta delle metriche Spark di Dataproc Serverless è abilitata per impostazione predefinita nei carichi di lavoro batch Spark.

Cloud Monitoring

Il monitoraggio utilizza i metadati e le metriche dei cluster, tra cui le metriche HDFS, YARN, job e di operazione, per fornire visibilità sull'integrità, sulle prestazioni e sulla disponibilità dei cluster e dei job Dataproc. Puoi utilizzare Monitoring per esplorare le metriche, aggiungere grafici, costruire dashboard e creare avvisi.

Esplora metriche

Puoi utilizzare Metrics Explorer per visualizzare le metriche di Dataproc. Le metriche relative a cluster, job e batch serverless di Dataproc sono elencate nelle risorse Cloud Dataproc Cluster, Cloud Dataproc Job e Cloud Dataproc Batch. Le metriche personalizzate di Dataproc sono elencate nella categoria VM Instances, Custom della risorsa.

Grafici

Puoi utilizzare Metrics Explorer per creare grafici che visualizzano le metriche di Dataproc.

Esempio: crei un grafico per visualizzare il numero di applicazioni Yarn attive in esecuzione sui tuoi cluster e poi aggiungi un filtro per selezionare le metriche visualizzate in base al nome o alla regione del cluster.

Dashboard

Puoi creare dashboard per monitorare i cluster e i job Dataproc utilizzando le metriche di più progetti e diversi prodotti Google Cloud. Puoi creare dashboard nella console Google Cloud dalla pagina Panoramica delle dashboard facendo clic su un grafico, creandolo e salvandolo dalla pagina Esplora metriche.

Avvisi

Puoi creare avvisi sulle metriche di Dataproc per ricevere una notifica tempestiva in caso di problemi con i cluster o i job.

Per ulteriori informazioni

Per ulteriori indicazioni, consulta