Questa pagina è stata tradotta dall'API Cloud Translation.

Utilizzare Dataproc Serverless Spark con i notebook gestiti

Questa pagina mostra come eseguire un file del blocco note su Spark serverless in un'istanza di Notebooks gestita da Vertex AI Workbench utilizzando Dataproc Serverless.

La tua istanza di blocchi note gestiti inviare il codice di un file blocco note da eseguire il servizio serverless Dataproc. Il servizio esegue il codice su un'infrastruttura di computing gestita e scalare le risorse in base alle esigenze. Pertanto, senza bisogno di eseguire il provisioning e gestire il tuo cluster.

Gli addebiti di Dataproc Serverless si applicano solo al momento dell'esecuzione del carico di lavoro.

Requisiti

Per eseguire un file del blocco note su Dataproc Serverless Spark, consulta i seguenti requisiti.

La sessione Dataproc Serverless deve essere eseguita nella stessa regione dell'istanza di blocchi note gestiti.
Il vincolo Richiedi accesso al sistema operativo (constraints/compute.requireOsLogin) non deve essere abilitato per il progetto. Consulta Gestire OS Login in un'organizzazione.
Per eseguire un file blocco note su Dataproc Serverless, devi fornire un account di servizio che ha autorizzazioni specifiche. Puoi concedere queste autorizzazioni all'account di servizio predefinito o fornire un account di servizio personalizzato. Consulta la sezione Autorizzazioni di questa pagina.
La sessione Spark serverless di Dataproc utilizza una rete VPC (Virtual Private Cloud) per l'esecuzione dei carichi di lavoro. La subnet VPC deve soddisfare requisiti specifici. Consulta i requisiti in Dataproc Serverless per la configurazione della rete Spark.

Autorizzazioni

Per assicurarti che l'account di servizio disponga dei necessari autorizzazioni per eseguire un file blocco note su Dataproc Serverless, chiedi all'amministratore di concedere all'account di servizio Ruolo IAM Editor Dataproc (roles/dataproc.editor) per il progetto. Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Questo ruolo predefinito contiene le autorizzazioni necessarie per eseguire un file blocco note su Dataproc Serverless. Per vedere le autorizzazioni esatte obbligatorie, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per eseguire un file blocco note su Dataproc Serverless, sono necessarie le seguenti autorizzazioni:

dataproc.agents.create
dataproc.agents.delete
dataproc.agents.get
dataproc.agents.update
dataproc.session.create
dataproc.sessions.get
dataproc.sessions.list
dataproc.sessions.terminate
dataproc.sessions.delete
dataproc.tasks.lease
dataproc.tasks.listInvalidatedLeases
dataproc.tasks.reportStatus

L'amministratore potrebbe anche essere in grado di fornire l'account di servizio queste autorizzazioni con ruoli personalizzati altri ruoli predefiniti.

Prima di iniziare

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Notebooks, Vertex AI, and Dataproc APIs.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Notebooks, Vertex AI, and Dataproc APIs.

Enable the APIs

Se non l'hai già fatto, creazione di un'istanza di blocchi note gestiti.
Se non l'hai ancora fatto, configura una rete VPC che soddisfi i requisiti elencati in Dataproc Serverless per la configurazione della rete Spark.

Apri JupyterLab

Nella console Google Cloud, vai alla pagina Blocchi note gestiti.

Vai a Blocchi note gestiti
Fai clic su Apri JupyterLab accanto al nome dell'istanza di blocchi note gestiti.

Avvia una sessione Spark di Dataproc Serverless

Per avviare una sessione Spark serverless di Dataproc, completa i seguenti passaggi.

Nell'interfaccia JupyterLab della tua istanza di blocchi note gestiti, seleziona la scheda Avvio app, quindi seleziona Spark serverless. Se la scheda Avvio app non è aperta, seleziona File > Nuovo Avvio app per aprirla.

Viene visualizzata la finestra di dialogo Crea sessione Spark serverless.
Nel campo Nome sessione, inserisci un nome per la sessione.
Nella sezione Configurazione esecuzione, inserisci l'account di servizio che vuoi utilizzare. Se non inserisci un account di servizio, la sessione utilizzerà il modello predefinito dell'account di servizio.
Nella sezione Configurazione di rete, seleziona Rete e subnet di una rete che soddisfa i requisiti elencato in Dataproc Serverless per Configurazione di rete Spark.
Fai clic su Crea.

Si apre un nuovo file blocco note. La sessione Spark serverless di Dataproc creata al kernel che esegue il codice del file del tuo blocco note.

Esegui il codice su Dataproc serverless Spark e altri kernel

Aggiungi il codice al nuovo file del notebook ed eseguilo.
Per eseguire il codice su un kernel diverso, modifica il kernel.
Quando vuoi eseguire di nuovo il codice nella sessione Spark di Dataproc Serverless, ripristina il kernel Spark di Dataproc Serverless.

Termina la sessione Spark serverless di Dataproc

Puoi terminare una sessione Spark serverless di Dataproc nell'interfaccia JupyterLab o nella console Google Cloud. Il codice nel file del notebook viene mantenuto.

JupyterLab

In JupyterLab, chiudi il file del blocco note creato quando hai creato la sessione Spark Dataproc Serverless.
Nella finestra di dialogo visualizzata, fai clic su Termina sessione.

Console Google Cloud

Nella console Google Cloud, vai alla pagina Sessioni Dataproc.

Vai alle sessioni Dataproc
Seleziona la sessione da terminare. e fai clic su Termina.

Eliminare la sessione Spark Dataproc Serverless

Puoi eliminare una sessione Spark serverless di Dataproc utilizzando la console Google Cloud. Il codice nel file del blocco note viene mantenuto.

Nella console Google Cloud, vai alla pagina Sessioni Dataproc.

Vai alle sessioni Dataproc
Seleziona la sessione da eliminare e poi fai clic su Elimina.

Passaggi successivi

Scopri di più su Dataproc Serverless.