Creare un cluster Dataproc utilizzando la console Google Cloud

Questa pagina illustra come utilizzare la console Google Cloud per creare un cluster Dataproc, eseguire un job Apache Spark di base nel cluster e modificare il numero di worker nel cluster.


Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Procedura guidata:

Procedura guidata


Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Enable the API

Crea un cluster

  1. Nella console Google Cloud, vai alla pagina Cluster di Dataproc.

    Vai a Cluster

  2. Fai clic su Crea cluster.

  3. Nella finestra di dialogo Crea cluster Dataproc, fai clic su Crea in nella riga Cluster su Compute Engine.

  4. Nel campo Nome cluster, inserisci example-cluster.

  5. Negli elenchi Regione e Zona, seleziona una regione e una zona.

    Seleziona una regione (ad esempio us-east1 o europe-west1) per isolare le risorse, come le istanze di macchine virtuali (VM), Cloud Storage e le posizioni di archiviazione dei metadati utilizzate da Dataproc, nella regione. Per ulteriori informazioni, consulta Regioni e zone disponibili e Endpoint a livello di area geografica.

  6. Per tutte le altre opzioni, utilizza le impostazioni predefinite.

  7. Per creare il cluster, fai clic su Crea.

    Il nuovo cluster viene visualizzato in un elenco nella pagina Cluster. Lo stato è Provisioning in corso finché il cluster non è pronto per essere utilizzato, poi diventa In esecuzione. Il provisioning del cluster potrebbe richiedere un paio di minuti.

Invia un job Spark

Invia un job Spark che stima un valore Pi:

  1. Nel menu di navigazione di Dataproc, fai clic su Job.
  2. Nella pagina Job, fai clic su Invia il job, quindi esegui le seguenti:

    1. Nel campo Cluster, fai clic su Sfoglia.
    2. Nella riga corrispondente a example-cluster, fai clic su Seleziona.
    3. Nel campo ID job, utilizza l'impostazione predefinita o fornisci un ID univoco per il tuo progetto Google Cloud.
    4. In Tipo di job, seleziona Spark.
    5. Nel campo Classe principale o jar, inserisci org.apache.spark.examples.SparkPi.
    6. Nel campo File jar, inserisci file:///usr/lib/spark/examples/jars/spark-examples.jar.
    7. Nel campo Argomenti, inserisci 1000 per impostare il numero di attività.

    8. Fai clic su Invia.

      Il job viene visualizzato nella pagina Dettagli job. Lo stato del job è In esecuzione o In fase di avvio, che poi diventa Riuscito dopo quando viene inviato.

      Per evitare di scorrere l'output, fai clic su A capo automatico: off. L'output è simile al seguente:

      Pi is roughly 3.1416759514167594
      

      Per visualizzare i dettagli del job, fai clic sulla scheda Configurazione.

Aggiorna un cluster

Aggiorna il cluster modificando il numero di istanze worker:

  1. Nel menu di navigazione, fai clic su Cluster.
  2. Nell'elenco dei cluster, fai clic su example-cluster.
  3. Nella pagina Dettagli cluster, fai clic sulla scheda Configurazione.

    Vengono visualizzate le impostazioni del cluster.

  4. Fai clic su Modifica.

  5. Nel campo Nodi worker, inserisci 5.

  6. Fai clic su Salva.

Ora il cluster è aggiornato. Per ridurre il numero di nodi worker al valore originale, segui la stessa procedura.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

  1. Nella pagina Dettagli cluster per example-cluster, fai clic su Elimina per eliminare il cluster.
  2. Fai clic su Elimina per confermare l'eliminazione del cluster.

Passaggi successivi