Puoi installare componenti aggiuntivi come Jupyter quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. In questa pagina viene descritto il componente Jupyter.
Il componente Jupyter è un blocco note per un solo utente basato sul web per l'analisi interattiva dei dati e supporta l'interfaccia utente web JupyterLab. La UI web Jupyter è disponibile sulla porta 8123
sul primo nodo master del cluster.
Avvia i blocchi note per più utenti. Puoi creare un'istanza Vertex AI Workbench abilitata per Dataproc o installare il plug-in JupyterLab di Dataproc su una VM per fornire blocchi note a più utenti.
Configura Jupyter. Jupyter può essere configurato fornendo dataproc:jupyter
proprietà cluster.
Per ridurre il rischio di esecuzione di codice remoto su API server di blocchi note non protette, l'impostazione predefinita della proprietà del cluster dataproc:jupyter.listen.all.interfaces
è false
, che limita le connessioni a localhost (127.0.0.1)
quando il gateway dei componenti è abilitato (è richiesta l'attivazione del gateway dei componenti per l'installazione del componente Jupyter).
Il blocco note Jupyter fornisce un kernel Python per l'esecuzione del codice Spark e un kernel PySpark. Per impostazione predefinita, i blocchi note vengono salvati in Cloud Storage nel bucket gestione temporanea Dataproc, specificato dall'utente o creato automaticamente al momento della creazione del cluster. La località può essere modificata al momento della creazione del cluster utilizzando la proprietà del cluster dataproc:jupyter.notebook.gcs.dir
.
Lavora con i file di dati. Puoi utilizzare un blocco note Jupyter per lavorare con i file di dati che sono stati caricati in Cloud Storage. Poiché il connettore Cloud Storage è preinstallato su un cluster Dataproc, puoi fare riferimento ai file direttamente nel blocco note. Ecco un esempio in cui viene eseguito l'accesso ai file CSV in Cloud Storage:
df = spark.read.csv("gs://bucket/path/file.csv") df.show()
Vedi Funzioni generiche di caricamento e salvataggio per esempi di PySpark.
Installa Jupyter
Installa il componente durante la creazione di un cluster Dataproc. Il componente Jupyter richiede l'attivazione del gateway dei componenti Dataproc.
Console
- Attiva il componente.
- Nella console Google Cloud, apri la pagina di Dataproc Crea un cluster. Il riquadro Configura cluster è selezionato.
- Nella sezione Componenti:
- In Componenti facoltativi, seleziona il componente Jupyter.
- In Gateway dei componenti, seleziona Abilita gateway del componente (consulta la sezione Visualizzazione e accesso agli URL del gateway dei componenti).
Interfaccia a riga di comando gcloud
Per creare un cluster Dataproc che includa il componente Jupyter, utilizza il comando gcloud dataproc clusters create cluster-name con il flag --optional-components
.
Esempio di versione dell'immagine predefinita più recente
Nell'esempio seguente viene installato il componente Jupyter su un cluster che utilizza l'ultima versione predefinita dell'immagine.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
API REST
Il componente Jupyter può essere installato tramite l'API Dataproc utilizzando SoftwareConfig.Component
come parte di una richiesta clusters.create
.
- Imposta la proprietà EndpointConfig.enableHttpPortAccess su
true
nell'ambito della richiestaclusters.create
per abilitare la connessione alla UI web del blocco note Jupyter utilizzando il gateway dei componenti.
Apri le UI Jupyter e JupyterLab
Fai clic sui link del gateway dei componenti della console Google Cloud per aprire nel browser locale la UI del blocco note Jupyter o JupyterLab in esecuzione sul nodo master del cluster.
Seleziona "GCS" o "Disco locale" per creare un nuovo blocco note Jupyter in una delle due posizioni.
Collega GPU a nodi master e worker
Puoi aggiungere GPU ai nodi master e worker del cluster quando utilizzi un blocco note Jupyter per:
- Pre-elabora i dati in Spark, quindi raccogli un DataFrame sul master ed esegui TensorFlow
- Utilizza Spark per orchestrare le esecuzioni di TensorFlow in parallelo
- Esegui Tensorflow-on-YARN.
- Utilizzo con altri scenari di machine learning che utilizzano GPU