Creare un cluster Dataproc utilizzando gcloud CLI
Questa pagina mostra come utilizzare lo strumento a riga di comando gcloud della CLI Google Cloud per creare un cluster Google Cloud Dataproc, eseguire un semplice job Apache Spark nel cluster, quindi modificare il numero di worker nel cluster.
Puoi scoprire come eseguire le stesse attività o attività simili con le iniziative rapide nell'API Explorer, la console Google Cloud in Creare un cluster Dataproc utilizzando la console Google Cloud e le librerie client in Creare un cluster Dataproc utilizzando le librerie client.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Crea un cluster
Esegui il comando seguente per creare un cluster denominato example-cluster
.
Vedi Regioni e regioni disponibili zone
per informazioni sulla selezione di una regione (puoi anche eseguire
gcloud compute regions list
per visualizzare un elenco delle regioni disponibili).
Vedi anche Endpoint a livello di regione
per saperne di più sugli endpoint a livello di regione.
gcloud dataproc clusters create example-cluster --region=region
La creazione del cluster è confermata nell'output comando:
... Waiting for cluster creation operation...done. Created [... example-cluster]
Invia un job
Per inviare un job Spark di esempio che calcola il valore approssimativo di pi greco, esegui la seguente comando:
gcloud dataproc jobs submit spark --cluster example-cluster \ --region=region \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
Questo comando specifica:
- Che vuoi eseguire un job
spark
sul clusterexample-cluster
nella regione specificata - Il
class
contenente il metodo principale per l'applicazione del job che calcola il valore di pi greco. - Il percorso del file jar che contiene il codice del job.
- Eventuali parametri da passare al job, in questo caso il numero
di attività, con un valore pari a
1000
L'esecuzione del job e l'output finale vengono visualizzati nella finestra del terminale.
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
Aggiorna un cluster
Per cambiare il numero di worker nel cluster e impostarlo su 5, esegui il seguente comando:
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 5
I dettagli del cluster vengono visualizzati nell'output del comando:
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
Puoi utilizzare lo stesso comando per diminuire il numero di nodi worker al valore originale:
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 2
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi per le risorse utilizzate in questa pagina, segui questi passaggi.
- Corsa
clusters delete
per eliminare il cluster di esempio. Ti viene chiesto di confermare l'eliminazione del cluster. Digitagcloud dataproc clusters delete example-cluster \ --region=region
y
per completare l'eliminazione.
Passaggi successivi
- Scopri come scrivere ed eseguire un job Spark Scala.