Puoi installare componenti aggiuntivi come Jupyter quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. In questa pagina viene descritto il componente Jupyter.
Il componente Jupyter è un blocco note basato sul Web per l'analisi interattiva dei dati e supporta l'interfaccia utente web di JupyterLab. La UI web di Jupyter è disponibile sulla porta 8123
nel primo nodo master del cluster.
Il blocco note Jupyter fornisce un kernel Python per eseguire il codice Spark e un kernel PySpark. Per impostazione predefinita, i blocchi note vengono salvati in Cloud Storage nel bucket di gestione temporanea Dataproc, specificato dall'utente o creato automaticamente al momento della creazione del cluster. La località può essere modificata al momento della creazione del cluster tramite la proprietà del cluster dataproc:jupyter.notebook.gcs.dir
.
Installa Jupyter
Installare il componente quando crei un cluster Dataproc. Il componente Jupyter richiede l'attivazione del gateway dei componenti Dataproc. Quando si utilizza l'immagine versione 1.5, l'installazione del componente Jupyter richiede anche l'installazione del componente Anaconda.
Console
- Attiva il componente.
- Nella console Google Cloud, apri la pagina Crea un cluster di Dataproc. Il riquadro Configura cluster è selezionato.
- Nella sezione Componenti:
- In Componenti facoltativi, seleziona il componente Jupyter e, se utilizzi la versione immagine 1.5, il componente Anaconda.
- In Gateway del componente, seleziona Abilita gateway del componente (vedi Visualizzazione e accesso agli URL del gateway del componente).
Interfaccia a riga di comando gcloud
Per creare un cluster Dataproc che include il componente Jupyter, utilizza il comando gcloud dataproc clusters create cluster-name con il flag --optional-components
.
Esempio di versione più recente dell'immagine predefinita
L'esempio seguente installa il componente Jupyter su un cluster che utilizza l'ultima versione predefinita dell'immagine.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
Esempio di versione dell'immagine 1.5
Il seguente esempio di versione immagine 1.5 installa sia i componenti Jupyter sia Anaconda (l'installazione del componente Anaconda è obbligatoria quando si utilizza la versione 1.5 dell'immagine).
gcloud dataproc clusters create cluster-name \ --optional-components=ANACONDA,JUPYTER \ --region=region \ --image-version=1.5 \ --enable-component-gateway \ ... other flags
API REST
Il componente Jupyter può essere installato tramite l'API Dataproc utilizzando SoftwareConfig.Component
nell'ambito di una richiesta clusters.create
(è richiesta anche l'installazione del componente Anaconda quando viene utilizzata la versione 1.5 dell'immagine).
- Imposta la proprietà EndpointConfig.enableHttpPortAccess su
true
nell'ambito della richiestaclusters.create
per abilitare la connessione all'interfaccia utente web del blocco note Jupyter utilizzando il componente Gateway.
Apri le UI di Jupyter e JupyterLab
Fai clic sui link del gateway componente Google Cloud Console per aprire nel browser locale il blocco note Jupyter o la UI JupyterLab in esecuzione sul nodo master del cluster.
Seleziona "GCS" o "Disco locale" per creare un nuovo blocco note Jupyter in entrambe le posizioni.
Collegamento di GPU a nodi master e/o worker
Puoi aggiungere GPU ai nodi master e worker del tuo cluster quando utilizzi un blocco note Jupyter per:
- Pre-elabora i dati in Spark, quindi raccogli un DataFrame sul master ed esegui TensorFlow
- Usa Spark per orchestrare le esecuzioni di TensorFlow in parallelo
- Esegui Tensorflow-on-YARN
- Da usare con altri scenari di machine learning che usano le GPU