Componente Jupyter facoltativo Dataproc

Puoi installare componenti aggiuntivi come Jupyter quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. In questa pagina viene descritto il componente Jupyter.

Il componente Jupyter è un blocco note basato sul Web per l'analisi interattiva dei dati e supporta l'interfaccia utente web di JupyterLab. La UI web di Jupyter è disponibile sulla porta 8123 nel primo nodo master del cluster.

Il blocco note Jupyter fornisce un kernel Python per eseguire il codice Spark e un kernel PySpark. Per impostazione predefinita, i blocchi note vengono salvati in Cloud Storage nel bucket di gestione temporanea Dataproc, specificato dall'utente o creato automaticamente al momento della creazione del cluster. La località può essere modificata al momento della creazione del cluster tramite la proprietà del cluster dataproc:jupyter.notebook.gcs.dir.

Installa Jupyter

Installare il componente quando crei un cluster Dataproc. Il componente Jupyter richiede l'attivazione del gateway dei componenti Dataproc. Quando si utilizza l'immagine versione 1.5, l'installazione del componente Jupyter richiede anche l'installazione del componente Anaconda.

Console

  1. Attiva il componente.
    • Nella console Google Cloud, apri la pagina Crea un cluster di Dataproc. Il riquadro Configura cluster è selezionato.
    • Nella sezione Componenti:

Interfaccia a riga di comando gcloud

Per creare un cluster Dataproc che include il componente Jupyter, utilizza il comando gcloud dataproc clusters create cluster-name con il flag --optional-components.

Esempio di versione più recente dell'immagine predefinita

L'esempio seguente installa il componente Jupyter su un cluster che utilizza l'ultima versione predefinita dell'immagine.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

Esempio di versione dell'immagine 1.5

Il seguente esempio di versione immagine 1.5 installa sia i componenti Jupyter sia Anaconda (l'installazione del componente Anaconda è obbligatoria quando si utilizza la versione 1.5 dell'immagine).

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --image-version=1.5 \
    --enable-component-gateway \
    ... other flags

API REST

Il componente Jupyter può essere installato tramite l'API Dataproc utilizzando SoftwareConfig.Component nell'ambito di una richiesta clusters.create (è richiesta anche l'installazione del componente Anaconda quando viene utilizzata la versione 1.5 dell'immagine).

Apri le UI di Jupyter e JupyterLab

Fai clic sui link del gateway componente Google Cloud Console per aprire nel browser locale il blocco note Jupyter o la UI JupyterLab in esecuzione sul nodo master del cluster.

Seleziona "GCS" o "Disco locale" per creare un nuovo blocco note Jupyter in entrambe le posizioni.

Collegamento di GPU a nodi master e/o worker

Puoi aggiungere GPU ai nodi master e worker del tuo cluster quando utilizzi un blocco note Jupyter per:

  1. Pre-elabora i dati in Spark, quindi raccogli un DataFrame sul master ed esegui TensorFlow
  2. Usa Spark per orchestrare le esecuzioni di TensorFlow in parallelo
  3. Esegui Tensorflow-on-YARN
  4. Da usare con altri scenari di machine learning che usano le GPU