Crea un cluster Dataproc utilizzando gcloud CLI
Questa pagina mostra come utilizzare lo strumento a riga di comando Google Cloud CLI gcloud per creare un cluster Dataproc, eseguire un job Apache Spark nel cluster, quindi modificare il numero di worker nel cluster.
.Puoi scoprire come eseguire attività simili o uguali con Guide rapide che utilizzano Explorer API, la console Google Cloud in Creare un cluster Dataproc utilizzando la console Google Cloud e utilizzando le librerie client in Creare un cluster Dataproc utilizzando le librerie client.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - Vuoi eseguire un job
spark
sul clusterexample-cluster
nella regione specificata. - Il
class
contenente il metodo principale per l'applicazione del job che calcola il valore di pi greco. - il percorso del file jar che contiene il codice del job;
- Eventuali parametri da passare al job. In questo caso, il numero di
attività, che è pari a
1000
. Per eliminare
example-cluster
, esegui il comandoclusters delete
:gcloud dataproc clusters delete example-cluster \ --region=REGION
Per confermare e completare l'eliminazione del cluster, premi y e poi premi Invio quando richiesto.
- Scopri come scrivere ed eseguire un job Spark Scala.
Crea un cluster
Per creare un cluster denominato example-cluster
, esegui questo comando:
gcloud dataproc clusters create example-cluster --region=REGION
L'output del comando conferma la creazione del cluster:
Waiting for cluster creation operation...done. Created [... example-cluster]
Per informazioni sulla selezione di una regione, vedi
Regioni e zone disponibili.
Per visualizzare un elenco delle regioni disponibili, puoi eseguire il
comando gcloud compute regions list
.
Per saperne di più sugli endpoint a livello di regione, consulta
Endpoint a livello di regione.
Invia un job
Per inviare un job Spark di esempio che calcola un valore approssimativo per pi
, esegui il
seguente comando:
gcloud dataproc jobs submit spark --cluster example-cluster \ --region=REGION \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
Questo comando specifica quanto segue:
L'esecuzione del job e l'output finale vengono visualizzati nella finestra del terminale.
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
Aggiorna un cluster
Per cambiare il numero di worker nel cluster e impostarlo su 5, esegui il comando seguente:
gcloud dataproc clusters update example-cluster \ --region=REGION \ --num-workers 5
L'output del comando mostra i dettagli del cluster. Ad esempio:
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
Per diminuire il numero di nodi worker fino al valore originale, utilizza lo stesso comando:
gcloud dataproc clusters update example-cluster \ --region=REGION \ --num-workers 2
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.