Crea un cluster Dataproc con gcloud CLI
Questa pagina mostra come utilizzare lo strumento a riga di comando gcloud di Google Cloud CLI per creare un cluster Google Cloud Dataproc, eseguire un semplice job Apache Spark nel cluster, quindi modificare il numero di worker nel cluster.
Per scoprire come eseguire attività uguali o simili, consulta le guide rapide con Explorer API, la console Google Cloud in Creare un cluster Dataproc utilizzando la console Google Cloud e utilizzare le librerie client in Creare un cluster Dataproc utilizzando librerie client.
Prima di iniziare
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Attiva l'API Dataproc.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Attiva l'API Dataproc.
crea un cluster
Esegui questo comando per creare un cluster denominato example-cluster
.
Consulta Regioni e zone disponibili per informazioni sulla selezione di una regione (puoi anche eseguire il comando gcloud compute regions list
per visualizzare un elenco delle regioni disponibili).
Per saperne di più sugli endpoint a livello di regione, consulta anche Endpoint a livello di regione.
gcloud dataproc clusters create example-cluster --region=region
La creazione del cluster è confermata nell'output comando:
... Waiting for cluster creation operation...done. Created [... example-cluster]
invia un job
Per inviare un job Spark di esempio che calcoli un valore approssimativo di pi greco, esegui questo comando:
gcloud dataproc jobs submit spark --cluster example-cluster \ --region=region \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
Questo comando specifica:
- Vuoi eseguire un job
spark
sul clusterexample-cluster
nella regione specificata class
contenente il metodo principale per l'applicazione di pi-calcolo del job- Il percorso del file jar che contiene il codice del job.
- Tutti i parametri che vuoi passare al job, in questo caso il numero di attività, che è
1000
L'esecuzione del job e l'output finale vengono visualizzati nella finestra del terminale.
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
aggiorna un cluster
Per modificare il numero di worker nel cluster in cinque, esegui questo comando:
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 5
I dettagli del cluster sono visualizzati nell'output del comando:
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
Puoi utilizzare lo stesso comando per ridurre il numero di nodi worker al valore originale:
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 2
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
- Esegui
clusters delete
per eliminare il cluster di esempio.gcloud dataproc clusters delete example-cluster \ --region=region
Ti viene chiesto di confermare l'eliminazione del cluster. Digitay
per completare l'eliminazione.
Passaggi successivi
- Scopri come scrivere ed eseguire un job Spark Scala.