Questa pagina è stata tradotta dall'API Cloud Translation.

Risolvere i problemi di creazione dei cluster

Questo documento spiega i messaggi di errore comuni relativi alla creazione di cluster e fornisce suggerimenti per la risoluzione dei problemi di creazione dei cluster.

Messaggi di errore comuni durante la creazione del cluster

Timeout dell'operazione:sono in esecuzione solo 0 dei 2 nodi di dati/gestori dei nodi minimi richiesti.

Causa: il nodo controller non è in grado di creare il cluster perché non può comunicare con i nodi worker.

Soluzione:
- Controlla gli avvisi relativi alle regole firewall.
- Assicurati che siano presenti le regole firewall corrette. Per ulteriori informazioni, consulta Panoramica delle regole firewall Dataproc predefinite.
- Esegui un test di connettività nella console Google Cloud per determinare cosa blocca la comunicazione tra il controller e i nodi worker.
Autorizzazione compute.subnetworks.use obbligatoria per projects/{projectId}/regions/{region}/subnetworks/{subnetwork}

Causa: questo errore può verificarsi quando tenti di configurare un cluster Dataproc utilizzando una rete VPC in un altro progetto e il account di servizio dell'agente di servizio Dataproc non dispone delle autorizzazioni necessarie per il progetto VPC condiviso che ospita la rete.

Soluzione: segui i passaggi descritti in Crea un cluster che utilizza una rete VPC in un altro progetto.
La zona projects/zones/{zone} non dispone di risorse sufficienti per soddisfare la richiesta (resource type:compute)

Causa: la zona utilizzata per creare il cluster non dispone di risorse sufficienti.

Soluzione:
- Utilizza la funzionalità Posizionamento automatico delle zone di Dataproc per creare il cluster in una qualsiasi delle zone di una regione con risorse disponibili.
- Crea il cluster in una zona diversa.
Errori di superamento quota

Quota CPUS/CPUS_ALL_REGIONS insufficiente
Quota "DISKS_TOTAL_GB" insufficiente
Quota "IN_USE_ADDRESSES" insufficiente

Causa: la tua richiesta di CPU, disco o indirizzo IP supera la quota disponibile.

Soluzione: richiedi una quota aggiuntiva dalla consoleGoogle Cloud .
Azione di inizializzazione non riuscita

Causa: l'azione di inizializzazione fornita durante la creazione del cluster non è stata installata.

Soluzione:
- Consulta le considerazioni e le linee guida per le azioni di inizializzazione.
- Esamina i log di output. Il messaggio di errore dovrebbe fornire un link ai log in Cloud Storage.
Impossibile inizializzare il nodo CLUSTER-NAME-m. ... Visualizza l'output in: <gs://PATH_TO_STARTUP_SCRIPT_OUTPUT>

Causa: impossibile inizializzare il nodo controller del cluster Dataproc.

Soluzione:
- Esamina i log di output dello script di avvio elencati nel messaggio di errore (gs://PATH_TO_STARTUP_SCRIPT_OUTPUT) e verifica la causa dell'inizializzazione del nodo non riuscita.
- Le cause possono includere problemi di configurazione di rete del cluster Dataproc e installazione non riuscita delle dipendenze dei pacchetti Python.
- Se il problema non viene risolto dopo aver esaminato i log dello script di avvio, correggi eventuali problemi lato utente, quindi riprova con il backoff esponenziale e contatta l'assistenza Google Cloud.
Creazione del cluster non riuscita: spazio degli indirizzi IP esaurito

Causa: lo spazio di indirizzi IP necessario per il provisioning dei nodi del cluster richiesti non è disponibile.

Soluzione:
- Crea un cluster con meno nodi worker, ma con un tipo di macchina più grande.
- Crea un cluster su una subnet o una rete diversa.
- Ridurre l'utilizzo della rete per liberare spazio per gli indirizzi IP.
- Attendi che sia disponibile spazio IP sufficiente sulla rete.

Messaggio di errore dello script di inizializzazione: il repository REPO_NAME non ha più un file di rilascio

Causa: il repository Debian oldstable backports è stato eliminato.

Soluzione:

Aggiungi il seguente codice prima del codice che esegue apt-get nello script di inizializzazione.

oldstable=$(curl -s https://deb.debian.org/debian/dists/oldstable/Release | awk '/^Codename/ {print $2}');
stable=$(curl -s https://deb.debian.org/debian/dists/stable/Release | awk '/^Codename/ {print $2}');

matched_files="$(grep -rsil '\-backports' /etc/apt/sources.list*)"
if [[ -n "$matched_files" ]]; then
  for filename in "$matched_files"; do
    grep -e "$oldstable-backports" -e "$stable-backports" "$filename" || \
      sed -i -e 's/^.*-backports.*$//' "$filename"
  done
fi

Timeout in attesa che l'istanza DATAPROC_CLUSTER_VM_NAME invii un report o Rete non raggiungibile: dataproccontrol-REGION.googleapis.com

Causa: questi messaggi di errore indicano che la configurazione di rete del tuo cluster Dataproc è incompleta: potrebbero mancare la route to the default internet gateway o le regole firewall.

Soluzione:

Per risolvere il problema, puoi creare i seguenti test della connettività:
- Crea un test di connettività tra due VM cluster Dataproc. Il risultato di questo test ti aiuterà a capire se le regole firewall di autorizzazione in entrata o in uscita della tua rete si applicano correttamente alle VM del cluster.
- Crea un test di connettività tra una VM del cluster Dataproc e un indirizzo IP API di controllo Dataproc corrente. Per ottenere un indirizzo IP attuale dell'API Dataproc Control, utilizza il seguente comando:
```
dig dataproccontrol-REGION.googleapis.com A
```
Utilizza uno qualsiasi degli indirizzi IPv4 nella sezione delle risposte dell'output.

Il risultato del test di connettività ti aiuterà a capire se la route al gateway internet predefinito e il firewall di autorizzazione in uscita sono configurati correttamente.

In base ai risultati di Connectivity Tests:
- Aggiungi una route a internet alla rete VPC del cluster: 0.0.0.0/0 per IPv4 e ::/0 per IPv6 con --next-hop-gateway=default-internet-gateway.
- Aggiungi regole firewall per il controllo dell'accesso.
Errore dovuto all'aggiornamento

Causa: il cluster ha accettato un job inviato al servizio Dataproc, ma non è stato in grado di eseguire lo scale up o lo scale down manualmente o tramite la scalabilità automatica. Questo errore può anche essere causato da una configurazione del cluster non standard.

Soluzione:
- Reimpostazione del cluster:apri un ticket di assistenza, includi un file tar di diagnostica e chiedi che il cluster venga reimpostato sullo stato RUNNING.
- Nuovo cluster: ricrea il cluster con la stessa configurazione. Questa soluzione può essere più rapida di un ripristino fornito dall'assistenza.

Suggerimenti per la risoluzione dei problemi relativi ai cluster

Questa sezione fornisce ulteriori indicazioni per la risoluzione dei problemi comuni che possono impedire la creazione di cluster Dataproc.

Quando il provisioning di un cluster Dataproc non riesce, spesso viene generato un messaggio di errore generico o viene segnalato uno stato PENDING o PROVISIONING prima di non riuscire. La chiave per diagnosticare e risolvere i problemi di errore del cluster è esaminare i log del cluster e valutare i punti di errore comuni.

Sintomi comuni

Di seguito sono riportati i sintomi comuni associati agli errori di creazione del cluster:

Lo stato del cluster rimane PENDING o PROVISIONING per un periodo prolungato.
Il cluster passa allo stato ERROR.
Errori API generici durante la creazione del cluster, ad esempio Operation timed out.
Messaggi di errore registrati o di risposta dell'API, ad esempio:
- RESOURCE_EXHAUSTED: relative a quote di CPU, disco o indirizzo IP
- Instance failed to start
- Permission denied
- Unable to connect to service_name.googleapis.com o Could not reach required Google APIs
- Connection refused o network unreachable
- Errori relativi all'esito negativo delle azioni di inizializzazione, come errori di esecuzione dello script e file non trovato.

Esamina i log del cluster

Un passaggio iniziale importante per diagnosticare gli errori di creazione del cluster è esaminare i log dettagliati del cluster disponibili in Cloud Logging.

Vai a Esplora log: apri Esplora log nella console Google Cloud .
Filtra i cluster Dataproc:
- Nel menu a discesa Risorsa, seleziona Cloud Dataproc Cluster.
- Inserisci il tuo cluster_name e project_id. Puoi anche filtrare per location (regione).
Esamina le voci di log:
- Cerca messaggi di livello ERROR o WARNING che si verificano in prossimità dell'ora in cui la creazione del cluster non è riuscita.
- Presta attenzione ai log dei componenti master-startup, worker-startup e agent per informazioni dettagliate sui problemi a livello di VM o dell'agente Dataproc.
- Per informazioni sui problemi relativi al tempo di avvio della VM, filtra i log in base a resource.type="gce_instance" e cerca i messaggi dai nomi delle istanze associati ai nodi del cluster, ad esempio CLUSTER_NAME-m o CLUSTER_NAME-w-0. I log della console seriale possono rivelare problemi di configurazione di rete, problemi del disco e errori di script che si verificano all'inizio del ciclo di vita della VM.

Cause comuni di errori del cluster e suggerimenti per la risoluzione dei problemi

Questa sezione illustra i motivi più comuni per cui la creazione del cluster Dataproc potrebbe non riuscire e fornisce suggerimenti per la risoluzione dei problemi relativi agli errori del cluster.

Autorizzazioni IAM insufficienti

Il service account VM utilizzato dal cluster Dataproc deve disporre dei ruoli IAM appropriati per eseguire il provisioning delle istanze di Compute Engine, accedere ai bucket Cloud Storage, scrivere log e interagire con altri servizi Google Cloud .

Ruolo Worker richiesto: verifica che il account di servizio VM disponga del ruolo Dataproc Worker (roles/dataproc.worker). Questo ruolo dispone delle autorizzazioni minime richieste per Dataproc per gestire le risorse del cluster.
Autorizzazioni di accesso ai dati: se i tuoi job leggono o scrivono in Cloud Storage o BigQuery, il account di servizio ha bisogno di ruoli correlati, come Storage Object Viewer, Storage Object Creator o Storage Object Admin per Cloud Storage oppure BigQuery Data Viewer o BigQuery Editor per BigQuery.
Autorizzazioni di logging: il account di servizio deve avere un ruolo con le autorizzazioni necessarie per scrivere i log in Cloud Logging, ad esempio il ruolo Logging Writer.