Componente Jupyter facoltativo di Dataproc

Puoi installare componenti aggiuntivi come Jupyter quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. Questa pagina descrive il componente Jupyter.

Il componente Jupyter è un notebook per un solo utente basato su web per l'analisi interattiva dei dati e supporta l'interfaccia utente web di JupyterLab. L'interfaccia utente web di Jupyter è disponibile sulla porta 8123 nel primo nodo master del cluster.

Avvia notebook per più utenti. Puoi creare un'istanza di Vertex AI Workbench abilitata per Dataproc o installare il plug-in JupyterLab di Dataproc su una VM per fornire notebook a più utenti.

Configura Jupyter. Jupyter può essere configurato fornendo dataproc:jupyter proprietà del cluster. Per ridurre il rischio di esecuzione di codice remoto tramite API di server di notebook non sicuri, l'impostazione predefinita della proprietà del cluster dataproc:jupyter.listen.all.interfaces è false, che limita le connessioni a localhost (127.0.0.1) quando il gateway dei componenti è attivato (l'attivazione del gateway dei componenti è obbligatoria durante l'installazione del componente Jupyter).

Il blocco note Jupyter fornisce un kernel Python per eseguire il codice Spark e un kernel PySpark. Per impostazione predefinita, i blocchi note vengono salvati in Cloud Storage nel bucket temporaneo Dataproc, specificato dall'utente o creato automaticamente al momento della creazione del cluster. La posizione può essere modificata al momento della creazione del cluster utilizzando la proprietà del cluster dataproc:jupyter.notebook.gcs.dir.

Lavorare con i file di dati. Puoi utilizzare un blocco note Jupyter per lavorare con i file di dati che sono stati caricati su Cloud Storage. Poiché il connettore Cloud Storage è preinstallato su un cluster Dataproc, puoi fare riferimento ai file direttamente nel notebook. Ecco un esempio che accede ai file CSV in Cloud Storage:

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

Per esempi di PySpark, consulta Funzioni generiche di caricamento e salvataggio.

Installa Jupyter

Installa il componente quando crei un cluster Dataproc. Il componente Jupyter richiede l'attivazione del gateway dei componenti di Dataproc.

  1. Attiva il componente.

Per creare un cluster Dataproc che includa il componente Jupyter, utilizza il comando gcloud dataproc clusters create cluster-name con il flag --optional-components.

Esempio di versione dell'immagine predefinita più recente

Il seguente esempio installa il componente Jupyter su un cluster che utilizza la versione dell'immagine predefinita più recente.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

Il componente Jupyter può essere installato tramite l'API Dataproc utilizzando SoftwareConfig.Component all'interno di una richiesta clusters.create.

Aprire le interfacce utente di Jupyter e JupyterLab

Fai clic sui link di Component Gateway della console Google Cloud per aprire nel browser locale il Jupyter Notebook o l'interfaccia utente di JupyterLab in esecuzione sul nodo master del cluster.

Seleziona "GCS" o "Disco locale" per creare un nuovo blocco note Jupyter in entrambe le posizioni.

Collega le GPU ai nodi master e worker

Puoi aggiungere GPU ai nodi master e worker del tuo cluster quando utilizzi un Jupyter Notebook per:

  1. Esegui la preelaborazione dei dati in Spark, poi raccogli un DataFrame sul master ed esegui TensorFlow
  2. Utilizzare Spark per orchestrare le esecuzioni di TensorFlow in parallelo
  3. Esegui Tensorflow-on-YARN
  4. Utilizzo con altri scenari di machine learning che utilizzano GPU