Componente Jupyter facoltativo di Dataproc

Puoi installare componenti aggiuntivi come Jupyter quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. In questa pagina viene descritto il componente Jupyter.

Il componente Jupyter è un blocco note per un solo utente basato sul web per l'analisi interattiva dei dati e supporta l'interfaccia utente web JupyterLab. La UI web Jupyter è disponibile sulla porta 8123 sul primo nodo master del cluster.

Avvia i blocchi note per più utenti. Puoi creare un'istanza Vertex AI Workbench abilitata per Dataproc o installare il plug-in JupyterLab di Dataproc su una VM per fornire blocchi note a più utenti.

Configura Jupyter. Jupyter può essere configurato fornendo dataproc:jupyter proprietà cluster. Per ridurre il rischio di esecuzione di codice remoto su API server di blocchi note non protette, l'impostazione predefinita della proprietà del cluster dataproc:jupyter.listen.all.interfaces è false, che limita le connessioni a localhost (127.0.0.1) quando il gateway dei componenti è abilitato (è richiesta l'attivazione del gateway dei componenti per l'installazione del componente Jupyter).

Il blocco note Jupyter fornisce un kernel Python per l'esecuzione del codice Spark e un kernel PySpark. Per impostazione predefinita, i blocchi note vengono salvati in Cloud Storage nel bucket gestione temporanea Dataproc, specificato dall'utente o creato automaticamente al momento della creazione del cluster. La località può essere modificata al momento della creazione del cluster utilizzando la proprietà del cluster dataproc:jupyter.notebook.gcs.dir.

Lavora con i file di dati. Puoi utilizzare un blocco note Jupyter per lavorare con i file di dati che sono stati caricati in Cloud Storage. Poiché il connettore Cloud Storage è preinstallato su un cluster Dataproc, puoi fare riferimento ai file direttamente nel blocco note. Ecco un esempio in cui viene eseguito l'accesso ai file CSV in Cloud Storage:

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

Vedi Funzioni generiche di caricamento e salvataggio per esempi di PySpark.

Installa Jupyter

Installa il componente durante la creazione di un cluster Dataproc. Il componente Jupyter richiede l'attivazione del gateway dei componenti Dataproc.

Console

  1. Attiva il componente.

Interfaccia a riga di comando gcloud

Per creare un cluster Dataproc che includa il componente Jupyter, utilizza il comando gcloud dataproc clusters create cluster-name con il flag --optional-components.

Esempio di versione dell'immagine predefinita più recente

Nell'esempio seguente viene installato il componente Jupyter su un cluster che utilizza l'ultima versione predefinita dell'immagine.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

API REST

Il componente Jupyter può essere installato tramite l'API Dataproc utilizzando SoftwareConfig.Component come parte di una richiesta clusters.create.

Apri le UI Jupyter e JupyterLab

Fai clic sui link del gateway dei componenti della console Google Cloud per aprire nel browser locale la UI del blocco note Jupyter o JupyterLab in esecuzione sul nodo master del cluster.

Seleziona "GCS" o "Disco locale" per creare un nuovo blocco note Jupyter in una delle due posizioni.

Collega GPU a nodi master e worker

Puoi aggiungere GPU ai nodi master e worker del cluster quando utilizzi un blocco note Jupyter per:

  1. Pre-elabora i dati in Spark, quindi raccogli un DataFrame sul master ed esegui TensorFlow
  2. Utilizza Spark per orchestrare le esecuzioni di TensorFlow in parallelo
  3. Esegui Tensorflow-on-YARN.
  4. Utilizzo con altri scenari di machine learning che utilizzano GPU