Puoi installare componenti aggiuntivi come Jupyter quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. In questa pagina viene descritto il componente Jupyter.
Il componente Jupyter è un blocco note basato sul Web per l'analisi interattiva dei dati e supporta l'interfaccia utente web di JupyterLab. La UI web Jupyter è disponibile sulla porta 8123
nel primo nodo master del cluster.
Il blocco note Jupyter fornisce un kernel Python per eseguire il codice Spark e un kernel PySpark. Per impostazione predefinita, i blocchi note vengono salvati in Cloud Storage nel bucket di gestione temporanea Dataproc, specificato dall'utente o creato automaticamente al momento della creazione del cluster. La località può essere modificata al momento della creazione del cluster tramite la proprietà dataproc:jupyter.notebook.gcs.dir
del cluster.
Installa Jupyter
Installa il componente quando crei un cluster Dataproc. Il componente Jupyter richiede l'attivazione del gateway dei componenti di Dataproc. Quando si utilizza la versione immagine 1.5, l'installazione del componente Jupyter richiede anche l'installazione del componente Anaconda.
Console
- Attiva il componente.
- Nella console Google Cloud, apri la pagina Crea un cluster di Dataproc. È selezionato il riquadro Configura cluster.
- Nella sezione Componenti:
- In Componenti facoltativi, seleziona il componente Jupyter e, se utilizzi la versione immagine 1.5, il componente Anaconda.
- In Gateway dei componenti, seleziona Abilita gateway dei componenti (vedi Visualizzazione e accesso agli URL dei componenti).
Interfaccia a riga di comando gcloud
Per creare un cluster Dataproc che include il componente Jupyter,
utilizza il comando gcloud dataproc clusters create cluster-name con il flag --optional-components
.
Esempio di versione predefinita più recente dell'immagine
L'esempio seguente installa il componente Jupyter su un cluster che utilizza la versione più recente dell'immagine predefinita.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
Esempio di versione immagine 1.5
Il seguente esempio di versione immagine 1.5 installa entrambi i componenti Jupyter e Anaconda (è necessario installare il componente Anaconda quando si utilizza la versione immagine 1.5).
gcloud dataproc clusters create cluster-name \ --optional-components=ANACONDA,JUPYTER \ --region=region \ --image-version=1.5 \ --enable-component-gateway \ ... other flags
API REST
Il componente Jupyter può essere installato tramite l'API Dataproc utilizzando SoftwareConfig.Component
come parte di una richiesta clusters.create
(l'installazione del componente Anaconda è necessaria anche quando si utilizza la versione immagine 1.5).
- Imposta la proprietà EndpointConfig.enableHttpPortAccess
su
true
come parte della richiestaclusters.create
per abilitare la connessione alla UI web del blocco note Jupyter utilizzando Component Gateway.
Apri le UI Jupyter e JupyterLab
Fai clic su Link al componente di Google Cloud Console per aprire nel browser locale il blocco note Jupyter o l'interfaccia utente di JupyterLab in esecuzione sul nodo master del cluster.
Seleziona "GCS" o "Disco locale" per creare un nuovo blocco note Jupyter in una delle due località.
Collegamento di GPU ai nodi master e/o worker
Puoi aggiungere GPU ai nodi master e worker del cluster quando utilizzi un blocco note Jupyter per:
- Preelabora i dati in Spark, quindi raccogli un DataFrame sul master ed esegui TensorFlow
- Usa Spark per orchestrare le esecuzioni di TensorFlow in parallelo
- Esegui Tensorflow-on-YARN
- Da usare con altri scenari di machine learning che usano le GPU