Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.
Guida rapida: crea un cluster Dataproc utilizzando l'interfaccia a riga di comando gcloud

Crea un cluster Dataproc utilizzando l'interfaccia a riga di comando gcloud

Questa pagina mostra come utilizzare lo strumento a riga di comando gcloud di Google Cloud CLI per creare un cluster Google Cloud Dataproc, eseguire un semplice job Apache Spark nel cluster, quindi modificare il numero di worker nel cluster.

Puoi scoprire come eseguire le stesse attività o attività simili con la Guida rapida di Explorer API, la console Google Cloud in Creare un cluster Dataproc utilizzando la console Google Cloud e utilizzando le librerie client in Creare un cluster Dataproc utilizzando le librerie client.

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore dei progetti in Google Cloud Console, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Cloud. Scopri come verificare se la fatturazione è abilitata su un progetto.

  4. Attiva l'API Dataproc.

    Abilita l'API

  5. Nella pagina del selettore dei progetti in Google Cloud Console, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  6. Assicurati che la fatturazione sia attivata per il tuo progetto Cloud. Scopri come verificare se la fatturazione è abilitata su un progetto.

  7. Attiva l'API Dataproc.

    Abilita l'API

Crea un cluster

Esegui il comando seguente per creare un cluster denominato example-cluster. Consulta Aree geografiche e zone disponibili per informazioni sulla selezione di una regione (puoi anche eseguire il comando gcloud compute regions list per visualizzare un elenco delle aree geografiche disponibili). Per ulteriori informazioni sugli endpoint a livello di regione, consulta la pagina Endpoint a livello di regione.

gcloud dataproc clusters create example-cluster --region=region

La creazione del cluster è confermata nell'output comando:

...
Waiting for cluster creation operation...done.
Created [... example-cluster]

Invia un job

Per inviare un job Spark di esempio che calcola un valore approssimativo per pi greco, esegui il comando seguente:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=region \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Questo comando specifica:

  • Che vuoi eseguire un job spark nel cluster example-cluster nella regione specificata
  • Il campo class contenente il metodo principale per l'applicazione di calcolo del job
  • Il percorso del file jar che contiene il codice del job.
  • Eventuali parametri da passare al job, in questo caso il numero di attività, ovvero 1000

L'esecuzione del job e l'output finale vengono visualizzate nella finestra del terminale.

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Aggiorna un cluster

Per modificare il numero di worker nel cluster a cinque, esegui il comando seguente:

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 5

I dettagli del cluster sono visualizzati nell'output del comando:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Puoi utilizzare lo stesso comando per ridurre il numero di nodi worker al valore originale:

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 2

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi:

  • Esegui clusters delete per eliminare il cluster di esempio.
    gcloud dataproc clusters delete example-cluster \
        --region=region
    
    Ti verrà chiesto di confermare che vuoi eliminare il cluster. Digita y per completare l'eliminazione.

Passaggi successivi