Creare un cluster Dataproc utilizzando gcloud CLI

Questa pagina mostra come utilizzare lo strumento a riga di comando gcloud della CLI Google Cloud per creare un cluster Dataproc, eseguire un job Apache Spark nel cluster e modificare il numero di worker nel cluster.

.

Puoi scoprire come eseguire le stesse attività o attività simili con le iniziative rapide nell'API Explorer, la console Google Cloud in Creare un cluster Dataproc utilizzando la console Google Cloud e le librerie client in Creare un cluster Dataproc utilizzando le librerie client.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Enable the API

Crea un cluster

Per creare un cluster denominato example-cluster, esegui il seguente comando:

gcloud dataproc clusters create example-cluster --region=REGION

L'output del comando conferma la creazione del cluster:

Waiting for cluster creation operation...done.
Created [... example-cluster]

Per informazioni sulla selezione di una regione, vedi Regioni e zone disponibili. Per visualizzare un elenco delle regioni disponibili, puoi eseguire il comando gcloud compute regions list. Per saperne di più sugli endpoint a livello di regione, consulta Endpoint a livello di regione.

Invia un job

Per inviare un job Spark di esempio che calcola un valore approssimativo per pi, esegui il seguente comando:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=REGION \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Questo comando specifica quanto segue:

  • Vuoi eseguire un job spark sul cluster example-cluster nella regione specificata
  • Il class contenente il metodo principale per l'applicazione del job che calcola il valore di pi greco.
  • Il percorso del file jar che contiene il codice del job.
  • Eventuali parametri da passare al job. Nel nostro caso, il numero di attività, che è pari a 1000

L'esecuzione del job e l'output finale vengono visualizzati nella finestra del terminale.

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Aggiorna un cluster

Per cambiare il numero di worker nel cluster e impostarlo su 5, esegui il seguente comando:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 5

L'output del comando mostra i dettagli del cluster. Ad esempio:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Per ridurre il numero di nodi worker al valore originale, utilizza lo stesso comando:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 2

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

  1. Per eliminare il example-cluster, esegui il comando clusters delete:

    gcloud dataproc clusters delete example-cluster \
        --region=REGION
    

  2. Per confermare e completare l'eliminazione del cluster, premi y e poi Invio quando richiesto.

Passaggi successivi