Strumenti di monitoraggio e risoluzione dei problemi di Dataproc

Introduzione

Dataproc è un servizio completamente gestito e a scalabilità elevata per l'esecuzione di piattaforme di elaborazione distribuite in open source come Apache Hadoop, Apache Spark, Apache Flink e Trino. Puoi utilizzare i file e gli strumenti illustrati nelle seguenti sezioni per risolvere i problemi e monitorare i cluster e i job di Dataproc.

Interfacce web open source

Molti componenti open source di cluster Dataproc, come Apache Hadoop e Apache Spark, forniscono interfacce web. Queste interfacce possono essere utilizzate per monitorare le risorse del cluster e le prestazioni dei job. Puoi usare l'interfaccia utente di YARN Resource Manager per visualizzare l'allocazione delle risorse dell'applicazione YARN su un cluster Dataproc.

Server di cronologia permanente

Le interfacce web open source in esecuzione su un cluster sono disponibili quando il cluster è in esecuzione, ma si arrestano quando elimini il cluster. Per visualizzare i dati di cluster e job dopo l'eliminazione di un cluster, puoi creare un server di cronologia permanente (PHS).

Esempio: hai riscontrato un errore o un rallentamento del job che vuoi analizzare. Puoi arrestare o eliminare il cluster di job, quindi visualizzare e analizzare i dati della cronologia dei job utilizzando PHS.

Dopo aver creato un PHS, puoi abilitarlo su un cluster Dataproc o un carico di lavoro batch serverless di Dataproc quando crei il cluster o invii il carico di lavoro batch. Un PHS può accedere ai dati della cronologia per i job eseguiti su più cluster, consentendoti di monitorare i job di un progetto anziché monitorare UI separate in esecuzione su cluster diversi.

Log Dataproc

Dataproc raccoglie i log generati da Apache Hadoop, Spark, Hive, Zookeeper e altri sistemi open source in esecuzione sui cluster, e li invia a Logging. Questi log sono raggruppati in base all'origine dei log, il che ti consente di selezionare e visualizzare i log di tuo interesse: ad esempio, i log YARN NodeManager e Spark Executor generati su un cluster vengono etichettati separatamente. Consulta Log di Dataproc per ulteriori informazioni sui contenuti e sulle opzioni dei log di Dataproc.

Cloud Logging

Logging è un sistema di gestione dei log in tempo reale completamente gestito. Offre spazio di archiviazione per i log importati dai servizi Google Cloud e gli strumenti per cercare, filtrare e analizzare i log su larga scala. I cluster Dataproc generano più log, tra cui i log dell'agente di servizio Dataproc, i log di avvio del cluster e i log dei componenti OSS, come i log YARN NodeManager.

Il logging è abilitato per impostazione predefinita sui cluster Dataproc e sui carichi di lavoro batch di Dataproc Serverless. I log vengono esportati periodicamente in Logging, dove vengono mantenuti dopo l'eliminazione del cluster o il completamento del carico di lavoro.

Metriche Dataproc

Le metriche dei cluster e dei job di Dataproc, con prefisso dataproc.googleapis.com/, sono costituite da dati delle serie temporali che forniscono insight sulle prestazioni di un cluster, ad esempio l'utilizzo della CPU o lo stato del job. Le metriche personalizzate di Dataproc, con prefisso custom.googleapis.com/, includono le metriche emesse dai sistemi open source in esecuzione sul cluster, ad esempio la metrica YARN running applications. Ottenere insight sulle metriche di Dataproc può aiutarti a configurare i cluster in modo efficiente. Impostare avvisi basati su metriche può aiutarti a riconoscere e risolvere rapidamente i problemi.

Le metriche dei cluster e dei job Dataproc vengono raccolte per impostazione predefinita senza costi aggiuntivi. La raccolta di metriche personalizzate viene addebitata ai clienti. Puoi abilitare la raccolta di metriche personalizzate quando crei un cluster. La raccolta di metriche Spark di Dataproc Serverless è abilitata per impostazione predefinita sui carichi di lavoro batch di Spark.

Cloud Monitoring

Monitoring utilizza metadati e metriche del cluster, tra cui le metriche HDFS, YARN, job e operazioni, per fornire visibilità su integrità, prestazioni e disponibilità di cluster e job di Dataproc. Puoi utilizzare Monitoring per esplorare metriche, aggiungere grafici, creare dashboard e creare avvisi.

Metrics Explorer

Puoi utilizzare Metrics Explorer per visualizzare le metriche Dataproc. Le metriche relative a cluster Dataproc, job e batch serverless sono elencate nelle risorse Cloud Dataproc Cluster, Cloud Dataproc Job e Cloud Dataproc Batch. Le metriche personalizzate di Dataproc sono elencate nella risorsa VM Instances, nella categoria Custom.

Grafici

Puoi utilizzare Metrics Explorer per creare grafici che visualizzano le metriche di Dataproc.

Esempio: crei un grafico per vedere il numero di applicazioni Yarn attive in esecuzione sui tuoi cluster e poi aggiungi un filtro per selezionare le metriche visualizzate per nome o regione del cluster.

Dashboard

Puoi creare dashboard per monitorare cluster e job di Dataproc utilizzando le metriche di più progetti e diversi prodotti Google Cloud. Puoi creare dashboard nella console Google Cloud dalla pagina Panoramica delle dashboard facendo clic, creando e salvando un grafico nella pagina Metrics Explorer.

Avvisi

Puoi creare avvisi relativi alle metriche Dataproc per ricevere una notifica tempestiva in caso di problemi relativi a cluster o job.

Per maggiori informazioni

Per indicazioni aggiuntive, vedi