Obiettivi
Utilizza Dataproc Hub per creare un ambiente di notebook JupyterLab per un solo utente in esecuzione su un cluster Dataproc.
Crea un notebook ed esegui un job Spark sul cluster Dataproc.
Elimina il cluster e conserva il blocco note in Cloud Storage.
Prima di iniziare
- L'amministratore deve concederti l'autorizzazione
notebooks.instances.use
(consulta Impostare i ruoli Identity and Access Management (IAM)).
Creare un cluster JupyterLab Dataproc da Dataproc Hub
Seleziona la scheda Notebook gestiti dall'utente nella pagina Dataproc→Workbench nella console Google Cloud.
Fai clic su Apri JupyterLab nella riga che elenca l'istanza Dataproc Hub creata dall'amministratore.
- Se non hai accesso alla console Google Cloud, inserisci l'URL dell'istanza Dataproc Hub che un amministratore ha condiviso con te nel browser web.
Nella pagina Jupyterhub→Opzioni Dataproc, seleziona una configurazione e una zona del cluster. Se l'opzione è attiva, specifica eventuali personalizzazioni: fai clic su Crea.
Dopo aver creato il cluster Dataproc, viene visualizzato un reindirizzamento all'interfaccia JupyterLab in esecuzione sul cluster.
crea un blocco note ed esegui un job Spark
Nel riquadro a sinistra dell'interfaccia JupyterLab, fai clic su
GCS
(Cloud Storage).Crea un blocco note PySpark da Avvio app JupyterLab.
Il kernel PySpark inizializza un contesto Spark (utilizzando la variabile
sc
). Puoi esaminare SparkContext ed eseguire un job Spark dal blocco note.rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem']) .map(lambda word: (word, 1)) .reduceByKey(lambda a, b: a + b)) print(rdd.collect())
Assegna un nome al blocco note e salvalo. Il blocco note viene salvato e rimane in Cloud Storage dopo l'eliminazione del cluster Dataproc.
Arresta il cluster Dataproc
Dall'interfaccia JupyterLab, seleziona File→Pannello di controllo Hub per apri la pagina Jupyterhub.
Fai clic su Interrompi il mio cluster per arrestare (eliminare) il server JupyterLab, che elimina il cluster Dataproc.
Passaggi successivi
- Esplora Spark e Jupyter Notebook su Dataproc su GitHub.