Puoi installare componenti aggiuntivi come Jupyter quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. In questa pagina viene descritto il componente Jupyter.
Il componente Jupyter
è un blocco note basato sul web per utente singolo per l'analisi interattiva dei dati e supporta la UI web
JupyterLab. L'interfaccia utente web di Jupyter è disponibile sulla porta 8123
sul primo nodo master del cluster.
Avvia blocchi note per più utenti. Puoi creare un'istanza di Vertex AI Workbench abilitata per Dataproc o installare il plug-in JupyterLab su una VM per fornire blocchi note a più utenti.
Configura Jupyter. Jupyter può essere configurato fornendo dataproc:jupyter
proprietà cluster.
Per ridurre il rischio di esecuzione remota di codice su API del server di blocchi note non protette, l'impostazione predefinita della proprietà del cluster dataproc:jupyter.listen.all.interfaces
è false
, che limita le connessioni a localhost (127.0.0.1)
se il Gateway dei componenti è abilitato (è richiesta l'attivazione del gateway dei componenti durante l'installazione del componente Jupyter).
Il blocco note Jupyter fornisce un kernel Python per eseguire il codice Spark e un kernel PySpark. Per impostazione predefinita, i blocchi note vengono salvati in Cloud Storage nel bucket gestione temporanea Dataproc, specificato dall'utente o creati automaticamente quando viene creato il cluster. La località può essere modificata al momento della creazione del cluster utilizzando la proprietà del cluster dataproc:jupyter.notebook.gcs.dir
.
Lavora con i file di dati. Puoi utilizzare un blocco note Jupyter per lavorare con i file di dati che sono stati caricati su Cloud Storage. Poiché il connettore Cloud Storage è preinstallato su un cluster Dataproc, puoi fare riferimento ai file direttamente nel tuo blocco note. Ecco un esempio di accesso ai file CSV in Cloud Storage:
df = spark.read.csv("gs://bucket/path/file.csv") df.show()
Consulta le funzioni di caricamento e salvataggio generiche per esempi di PySpark.
Installa Jupyter
Installa il componente quando crei un cluster Dataproc. Il componente Jupyter richiede l'attivazione del gateway dei componenti Dataproc.
Console
- Attiva il componente.
- Nella console Google Cloud, apri la pagina Crea un cluster di Dataproc. Il riquadro Configura cluster è selezionato.
- Nella sezione Componenti:
- In Componenti facoltativi, seleziona il componente Jupyter.
- In Gateway dei componenti, seleziona Attiva gateway dei componenti (vedi Visualizzazione e accesso agli URL del gateway dei componenti).
Interfaccia a riga di comando gcloud
Per creare un cluster Dataproc che includa il componente Jupyter, utilizza il comando gcloud dataproc clusters create cluster-name con il flag --optional-components
.
Esempio di versione dell'immagine predefinita più recente
L'esempio seguente installa il componente Jupyter su un cluster che utilizza la versione dell'immagine predefinita più recente.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
API REST
Il componente Jupyter
può essere installato tramite l'API Dataproc utilizzando
SoftwareConfig.Component
come parte di una richiesta
clusters.create
.
- Imposta la proprietà EndpointConfig.enableHttpPortAccess
su
true
come parte della richiestaclusters.create
per abilitare la connessione all'interfaccia utente web del blocco note Jupyter utilizzando il gateway dei componenti.
Apri le UI di Jupyter e JupyterLab
Fai clic sui link del gateway dei componenti della console Google Cloud per aprire nel browser locale il blocco note Jupyter o la UI JupyterLab in esecuzione sul nodo master del cluster.
Seleziona "GCS" o "Disco locale" per creare un nuovo blocco note Jupyter in una delle due posizioni.
Collega le GPU a nodi master e worker
Puoi aggiungere GPU ai nodi master e worker del cluster quando utilizzi un blocco note Jupyter per:
- Pre-elabora i dati in Spark, quindi raccogli un DataFrame nel master ed esegui TensorFlow
- Utilizza Spark per orchestrare le esecuzioni di TensorFlow in parallelo
- Esegui Tensorflow-on-YARN
- Da utilizzare con altri scenari di machine learning che impiegano GPU