Utilizzo di Dataproc Hub


Obiettivi

  1. Usa Dataproc Hub per creare un ambiente blocco note JupyterLab a utente singolo in esecuzione su un cluster Dataproc.

  2. Crea un blocco note ed esegui un job Spark sul cluster Dataproc.

  3. Elimina il cluster e conserva il blocco note in Cloud Storage.

Prima di iniziare

  1. L'amministratore deve concederti l'autorizzazione notebooks.instances.use (consulta Impostare i ruoli IAM (Identity and Access Management)).

crea un cluster Dataproc JupyterLab da Dataproc Hub

  1. Seleziona la scheda Blocchi note gestiti dall'utente nella pagina Dataproc→Workbench nella console Google Cloud.

  2. Fai clic su Apri JupyterLab nella riga che elenca l'istanza di Dataproc Hub creata dall'amministratore.

    1. Se non hai accesso alla console Google Cloud, inserisci l'URL dell'istanza di Dataproc Hub che un amministratore ha condiviso con te nel tuo browser web.
  3. Nella pagina Jupyterhub→Opzioni Dataproc, seleziona una zona e una configurazione del cluster. Se questa opzione è abilitata, specifica eventuali personalizzazioni e fai clic su Crea.

    Dopo la creazione del cluster Dataproc, il sistema ti reindirizzerà all'interfaccia JupyterLab in esecuzione sul cluster.

Crea un blocco note ed esegui un job Spark

  1. Nel riquadro a sinistra dell'interfaccia JupyterLab, fai clic su GCS (Cloud Storage).

  2. Crea un blocco note PySpark dall'Avvio app JupyterLab.

  3. Il kernel PySpark inizializza uno SparkContext (utilizzando la variabile sc). Puoi esaminare SparkContext ed eseguire un job Spark dal blocco note.

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. Assegna un nome al blocco note e salvalo. Il blocco note viene salvato e rimane in Cloud Storage dopo l'eliminazione del cluster Dataproc.

Arresta il cluster Dataproc

  1. Dall'interfaccia di JupyterLab, seleziona File→Hub di controllo di Hub per aprire la pagina Jupyterhub.

  2. Fai clic su Arresta il mio cluster per arrestare (eliminare) il server JupyterLab, che elimina il cluster Dataproc.

Passaggi successivi