Dataproc è un servizio completamente gestito e a scalabilità elevata per l'esecuzione di piattaforme di elaborazione distribuita open source come Apache Hadoop, Apache Spark, Apache Flink e Trino. Puoi utilizzare gli strumenti e i file descritti nelle sezioni seguenti per esaminare, risolvere i problemi e monitorare i cluster e i job Dataproc.
Indagini basate sull'AI con Gemini Cloud Assist (anteprima)
Panoramica
La funzionalità di anteprima Indagini di Gemini Cloud Assist utilizza le funzionalità avanzate di Gemini per assistere nella creazione e nell'esecuzione di cluster e job Dataproc. Questa funzionalità analizza i cluster non riusciti e i job non riusciti e a esecuzione lenta per identificare le cause principali e consigliare correzioni. Crea un'analisi persistente che puoi esaminare, salvare e condividere con l' Google Cloud assistenza per facilitare la collaborazione e accelerare la risoluzione dei problemi.
Funzionalità
Utilizza questa funzionalità per creare indagini dalla console Google Cloud :
- Aggiungi una descrizione del contesto in linguaggio naturale a un problema prima di creare un'indagine.
- Analizza i cluster non riusciti e i job lenti e non riusciti.
- Ottieni informazioni sulle cause principali dei problemi con le correzioni consigliate.
- Crea Google Cloud richieste di assistenza con il contesto completo dell'indagine allegato.
Prima di iniziare
Per iniziare a utilizzare la funzionalità Indagine, nel tuo progetto Google Cloud , abilita l'API Gemini Cloud Assist.
Creare un'indagine
Per creare un'indagine:
Nella console Google Cloud , vai alla pagina Indagini di Cloud Assist.
Fai clic su
Crea.Descrivi il problema: fornisci una descrizione del problema del cluster o del job.
Seleziona l'intervallo di tempo: indica un intervallo di tempo in cui si è verificato il problema (il valore predefinito è 30 minuti).
Seleziona risorse:
- Fai clic su
- Nel campo Filtri rapidi, digita "dataproc",
quindi seleziona uno o più tra
dataproc.Batch
,dataproc.Job
odataproc.Cluster
come filtri. - Seleziona il batch, il job o il cluster elencato da esaminare.
Aggiungi risorsa.
- Nel campo Filtri rapidi, digita "dataproc",
quindi seleziona uno o più tra
- Fai clic su
Fai clic su Crea.
Interpretare i risultati dell'indagine
Una volta completata un'indagine, viene aperta la pagina Dettagli indagine. Questa pagina contiene l'analisi completa di Gemini, organizzata nelle seguenti sezioni:
- Problema: una sezione compressa contenente i dettagli compilati automaticamente del job in fase di analisi.
- Osservazioni pertinenti: una sezione compressa che elenca i punti dati chiave e le anomalie rilevate da Gemini durante l'analisi di log e metriche.
- Ipotesi: questa è la sezione principale, che viene espansa per impostazione predefinita.
Viene visualizzato un elenco di potenziali cause principali del problema osservato. Ogni ipotesi
include:
- Panoramica: una descrizione della possibile causa, ad esempio "Tempo di scrittura shuffle elevato e potenziale asimmetria delle attività".
- Correzioni consigliate: un elenco di passaggi attuabili per risolvere il potenziale problema.
Intervieni
Dopo aver esaminato le ipotesi e i consigli:
Applica una o più delle correzioni suggerite alla configurazione o al codice del job e poi esegui di nuovo il job.
Fornisci un feedback sull'utilità dell'indagine facendo clic sulle icone Mi piace o Non mi piace nella parte superiore del riquadro.
Esaminare e riassegnare le indagini
I risultati di un'indagine eseguita in precedenza possono essere esaminati facendo clic sul nome dell'indagine nella pagina Indagini di Cloud Assist per aprire la pagina Dettagli indagine.
Se hai bisogno di ulteriore assistenza, puoi aprire una Google Cloud richiesta di assistenza. Questa procedura fornisce all'tecnico del servizio di assistenza il contesto completo dell'indagine eseguita in precedenza, incluse le osservazioni e le ipotesi generate da Gemini. Questa condivisione del contesto riduce notevolmente la comunicazione bidirezionale necessaria con il team di assistenza e porta a una risoluzione più rapida della richiesta.
Per creare una richiesta di assistenza da un'indagine:
Nella pagina Dettagli indagine, fai clic su Richiedi assistenza.
Stato dell'anteprima e prezzi
Non è previsto alcun costo per le indagini di Gemini Cloud Assist durante l'anteprima pubblica. Gli addebiti verranno applicati alla funzionalità quando sarà disponibile pubblicamente (GA).
Per maggiori informazioni sui prezzi dopo la disponibilità generale, consulta la pagina Prezzi di Gemini Cloud Assist.
Interfacce web open source
Molti componenti open source del cluster Dataproc, come Apache Hadoop e Apache Spark, forniscono interfacce web. Queste interfacce possono essere utilizzate per monitorare le risorse del cluster e il rendimento dei job. Ad esempio, puoi utilizzare l'interfaccia utente di YARN Resource Manager per visualizzare l'allocazione delle risorse dell'applicazione YARN su un cluster Dataproc.
Server di cronologia permanente
Le interfacce web open source in esecuzione su un cluster sono disponibili quando il cluster è in esecuzione, ma terminano quando elimini il cluster. Per visualizzare i dati del cluster e del job dopo l'eliminazione di un cluster, puoi creare un server di cronologia permanente (PHS).
Esempio: si verifica un errore o un rallentamento del job che vuoi analizzare. Puoi interrompere o eliminare il cluster di job, quindi visualizzare e analizzare i dati della cronologia dei job utilizzando il tuo PHS.
Dopo aver creato un PHS, lo abiliti su un cluster Dataproc o Google Cloud sul workload batch Serverless per Apache Spark quando crei il cluster o invii il workload batch. Un PHS può accedere ai dati cronologici dei job eseguiti su più cluster, consentendoti di monitorare i job in un progetto anziché monitorare UI separate in esecuzione su cluster diversi.
Log Dataproc
Dataproc raccoglie i log generati da Apache Hadoop, Spark, Hive, Zookeeper e altri sistemi open source in esecuzione sui cluster e li invia a Logging. Questi log sono raggruppati in base all'origine dei log, il che ti consente di selezionare e visualizzare i log di tuo interesse: ad esempio, i log di YARN NodeManager e Spark Executor generati su un cluster sono etichettati separatamente. Per saperne di più sui contenuti e sulle opzioni dei log di Dataproc, consulta la sezione Log di Dataproc.
Cloud Logging
Logging è un sistema di gestione dei log in tempo reale e completamente gestito. Fornisce spazio di archiviazione per i log inseriti da Google Cloud servizi e strumenti per cercare, filtrare e analizzare i log su larga scala. I cluster Dataproc generano più log, tra cui i log dell'agente di servizio Dataproc, i log di avvio del cluster e i log dei componenti OSS, come i log di YARN NodeManager.
La registrazione è abilitata per impostazione predefinita sui cluster Dataproc e sui workload batch Serverless per Apache Spark. I log vengono esportati periodicamente in Logging, dove vengono conservati dopo l'eliminazione del cluster o il completamento del carico di lavoro.
Metriche Dataproc
Le metriche del cluster e dei job Dataproc,
con prefisso dataproc.googleapis.com/
, sono costituite da
dati delle serie temporali che forniscono informazioni sul rendimento
di un cluster, ad esempio l'utilizzo della CPU o lo stato del job. Le metriche personalizzate di Dataproc, con il prefisso custom.googleapis.com/
, includono le metriche emesse dai sistemi open source in esecuzione sul cluster, come la metrica running applications
di YARN. Ottenere informazioni dettagliate sulle metriche di Dataproc
può aiutarti a configurare i cluster in modo efficiente. La configurazione di avvisi basati su metriche può aiutarti a
riconoscere e risolvere rapidamente i problemi.
Le metriche dei cluster e dei job Dataproc vengono raccolte per impostazione predefinita senza costi. La raccolta di metriche personalizzate è addebitata ai clienti. Puoi abilitare la raccolta di metriche personalizzate quando crei un cluster. La raccolta delle metriche Spark di Serverless per Apache Spark è attivata per impostazione predefinita nei workload batch Spark.
Cloud Monitoring
Monitoring utilizza i metadati e le metriche del cluster, incluse le metriche di HDFS, YARN, job e operazioni, per fornire visibilità su integrità, prestazioni e disponibilità di cluster e job Dataproc. Puoi utilizzare Monitoring per esplorare le metriche, aggiungere grafici, creare dashboard e avvisi.
Esplora metriche
Puoi utilizzare Esplora metriche
per visualizzare le metriche di Dataproc.
Le metriche del cluster, del job e del batch Serverless per Apache Spark di Dataproc sono elencate nelle risorse Cloud Dataproc Cluster
, Cloud Dataproc Job
e Cloud Dataproc Batch
. Le metriche personalizzate di Dataproc sono elencate nella risorsa VM Instances
,
nella categoria Custom
.
Grafici
Puoi utilizzare Metrics Explorer per creare grafici che visualizzano le metriche Dataproc.
Esempio: crei un grafico per visualizzare il numero di applicazioni Yarn attive in esecuzione sui tuoi cluster, quindi aggiungi un filtro per selezionare le metriche visualizzate in base al nome o alla regione del cluster.
Dashboard
Puoi creare dashboard per monitorare i cluster e i job Dataproc utilizzando le metriche di più progetti e di diversi prodotti Google Cloud . Puoi creare dashboard nella console Google Cloud dalla pagina Panoramica delle dashboard facendo clic, creando e poi salvando un grafico dalla pagina Esplora metriche.
Avvisi
Puoi creare avvisi relativi alle metriche Dataproc per ricevere una notifica tempestiva dei problemi relativi al cluster o al job.
Passaggi successivi
- Scopri come risolvere i problemi relativi ai messaggi di errore di Dataproc.
- Scopri come visualizzare i dati di diagnostica del cluster Dataproc.
- Consulta le domande frequenti su Dataproc.