Utilizzo di Dataproc Hub


Obiettivi

  1. Utilizzare Dataproc Hub per creare un progetto Ambiente blocco note JupyterLab in esecuzione su un cluster Dataproc.

  2. Creare un blocco note ed eseguire un job Spark sul cluster Dataproc.

  3. Elimina il cluster e conserva il blocco note in Cloud Storage.

Prima di iniziare

  1. L'amministratore deve concederti l'autorizzazione notebooks.instances.use (consulta Impostare i ruoli Identity and Access Management (IAM)).

Creare un cluster Dataproc JupyterLab da Dataproc Hub

  1. Seleziona la scheda Blocchi note gestiti dall'utente Dataproc→Workbench nella console Google Cloud.

  2. Fai clic su Apri JupyterLab nella riga che elenca l'istanza Dataproc Hub creata dall'amministratore.

    1. Se non hai accesso alla console Google Cloud, inserisci l'URL dell'istanza Dataproc Hub amministratore condiviso con te nel tuo browser web.
  3. Nella pagina Jupyterhub→Dataproc Options (Opzioni di Jupyterhub→Dataproc), seleziona una configurazione e una zona del cluster. Se abilitato, specifica eventuali personalizzazioni, quindi fai clic su Crea.

    Una volta creato il cluster Dataproc, il sistema ti reindirizzerà all'interfaccia JupyterLab in esecuzione sul cluster.

crea un blocco note ed esegui un job Spark

  1. Nel riquadro a sinistra dell'interfaccia di JupyterLab, fai clic su GCS (Cloud Storage).

  2. Crea un blocco note PySpark da Avvio app JupyterLab.

  3. Il kernel PySpark inizializza un contesto Spark (utilizzando la variabile sc). Puoi esaminare SparkContext ed eseguire un job Spark dal notebook.

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. Assegna un nome al blocco note e salvalo. Il blocco note viene salvato e rimane in Cloud Storage dopo l'eliminazione del cluster Dataproc.

Spegni il cluster Dataproc

  1. Nell'interfaccia di JupyterLab, seleziona File→Pannello di controllo dell'hub per aprire la pagina Jupyterhub.

  2. Fai clic su Interrompi il mio cluster per arrestare (eliminare) il server JupyterLab, che elimina il cluster Dataproc.

Passaggi successivi