Crea un cluster Dataproc utilizzando la console Google Cloud

Questa pagina mostra come utilizzare la console Google Cloud per creare un cluster Dataproc, eseguire un job Apache Spark di base nel cluster, quindi modificare il numero di worker nel cluster.

Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Aiuto:

Guidami

Prima di iniziare

Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.

Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

Vai al selettore progetti

Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

Attiva l'API Dataproc.

Abilita l'API

Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

Vai al selettore progetti

Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

Attiva l'API Dataproc.

Abilita l'API

Crea un cluster

Nella console Google Cloud, vai alla pagina Cluster di Dataproc.

Vai a Cluster
Fai clic su Crea cluster.
Nella finestra di dialogo Crea cluster Dataproc, fai clic su Crea nella riga Cluster su Compute Engine.
Nel campo Nome del cluster, inserisci example-cluster.
Negli elenchi Regione e Zona, seleziona una regione e una zona.

Seleziona una regione (ad esempio us-east1 o europe-west1) per isolare risorse, come le istanze di macchine virtuali (VM) e Cloud Storage e le località di archiviazione dei metadati utilizzate da Dataproc nella regione. Per ulteriori informazioni, consulta Regioni e zone disponibili ed Endpoint a livello di regione.
Per tutte le altre opzioni, utilizza le impostazioni predefinite.
Per creare il cluster, fai clic su Crea.

Il nuovo cluster viene visualizzato in un elenco nella pagina Cluster. Lo stato è Provisioning in corso fino a quando il cluster non è pronto per l'uso, dopodiché lo stato diventa In esecuzione. Il provisioning del cluster potrebbe richiedere un paio di minuti.

Invia un job Spark

Invia un job Spark che stima il valore Pi:

Nel menu di navigazione di Dataproc, fai clic su Job.
Nella pagina Job, fai clic su Invia job, quindi segui questi passaggi:
1. Nel campo Cluster, fai clic su Sfoglia.
2. Nella riga relativa a example-cluster, fai clic su Seleziona.
3. Nel campo ID job, utilizza l'impostazione predefinita o fornisci un ID univoco per il tuo progetto Google Cloud.
4. In Tipo di job, seleziona Spark.
5. Nel campo Classe principale o jar, inserisci org.apache.spark.examples.SparkPi.
6. Nel campo File jar, inserisci file:///usr/lib/spark/examples/jars/spark-examples.jar.
7. Nel campo Argomenti, inserisci 1000 per impostare il numero di attività.
  
  Nota: il job Spark stima Pi utilizzando il metodo Monte Carlo. Genera i punti x e y su un piano di coordinate che modella un cerchio racchiuso in un quadrato unitario. L'argomento di input (1000) determina il numero di coppie x-y da generare. Più coppie vengono generate, maggiore è la precisione della stima. Questa stima utilizza i nodi worker Dataproc per caricare in contemporanea il calcolo. Per saperne di più, consulta questo articolo su come stimare il valore Pi utilizzando il metodo Monte Carlo e JavaSparkPi.java su GitHub.
8. Fai clic su Invia.
  
  Il job viene visualizzato nella pagina Dettagli job. Lo stato del job è In esecuzione o In fase di avvio, quindi cambia in Riuscito dopo l'invio.
  
  Per evitare di scorrere nell'output, fai clic su A capo: off. L'output è simile al seguente:
```
Pi is roughly 3.1416759514167594
```
  Per visualizzare i dettagli del job, fai clic sulla scheda Configurazione.

Aggiorna un cluster

Aggiorna il cluster modificando il numero di istanze worker:

Nel menu di navigazione, fai clic su Cluster.
Nell'elenco dei cluster, fai clic su example-cluster.
Nella pagina Dettagli del cluster, fai clic sulla scheda Configurazione.

Vengono visualizzate le impostazioni del cluster.
Fai clic su Modifica.
Nel campo Nodi worker, inserisci 5.
Fai clic su Salva.

Ora il cluster è aggiornato. Per diminuire il numero di nodi worker al valore originale, segui la stessa procedura.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi:

Nella pagina Dettagli del cluster per example-cluster, fai clic su Elimina per eliminare il cluster.
Fai clic su Elimina per confermare l'eliminazione del cluster.

Passaggi successivi

Prova questa guida rapida utilizzando altri strumenti:
- Utilizza Explorer API.
- Utilizza Google Cloud CLI.
Scopri come creare regole firewall efficaci quando crei un progetto.
Scopri come scrivere ed eseguire un job Spark Scala.