Esecuzione di un'istanza di blocchi note gestiti su un cluster Dataproc
Questa pagina mostra come eseguire un'istanza di blocchi note gestiti su un cluster Dataproc.
Prima di iniziare
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Enable the Notebooks and Dataproc APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Enable the Notebooks and Dataproc APIs.
- Se non l'hai già fatto, creazione di un'istanza di blocchi note gestiti.
Ruoli obbligatori
Per assicurarti che l'account di servizio disponga dei necessari autorizzazioni per eseguire un file blocco note su un cluster Dataproc serverless, chiedi all'amministratore di concedere all'account di servizio seguenti ruoli IAM:
-
Worker Dataproc (
roles/dataproc.worker
) del tuo progetto -
Editor Dataproc (
roles/dataproc.editor
) sul cluster per l'autorizzazionedataproc.clusters.use
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Questi ruoli predefiniti le autorizzazioni necessarie per eseguire un file di blocco note su un cluster Dataproc serverless. Per vedere le autorizzazioni esatte obbligatorie, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
Per eseguire un file blocco note su un cluster Dataproc serverless sono necessarie le seguenti autorizzazioni:
-
dataproc.agents.create
-
dataproc.agents.delete
-
dataproc.agents.get
-
dataproc.agents.update
-
dataproc.tasks.lease
-
dataproc.tasks.listInvalidatedLeases
-
dataproc.tasks.reportStatus
-
dataproc.clusters.use
L'amministratore potrebbe anche essere in grado di fornire l'account di servizio queste autorizzazioni con ruoli personalizzati e altri ruoli predefiniti.
Crea un cluster Dataproc
Eseguire il file di blocco note di un'istanza di blocchi note gestiti in un cluster Dataproc, quest'ultimo deve soddisfare i requisiti seguenti di classificazione:
Il gateway dei componenti del cluster deve essere abilitato.
Il cluster deve avere il componente Jupyter.
Il cluster deve trovarsi nella stessa regione della tua istanza di blocchi note gestiti.
Per creare un cluster Dataproc, inserisci il seguente comando Cloud Shell o un altro in cui è installata Google Cloud CLI.
gcloud dataproc clusters create CLUSTER_NAME\ --region=REGION \ --enable-component-gateway \ --optional-components=JUPYTER
Sostituisci quanto segue:
REGION
: la località di Google Cloud la tua istanza di blocchi note gestitiCLUSTER_NAME
: il nome del nuovo cluster
Dopo alcuni minuti, il cluster Dataproc disponibili per l'uso. Scopri di più sulla creazione di Dataproc cluster.
Apri JupyterLab
Se non l'hai già fatto, creazione un'istanza di blocchi note gestiti nella stessa regione in cui si trova il cluster Dataproc.
Nella console Google Cloud, vai alla pagina Notebook gestiti.
Fai clic su Apri JupyterLab accanto al nome dell'istanza di blocchi note gestiti.
Eseguire un file blocco note nel cluster Dataproc
Puoi eseguire un file blocco note nel cluster Dataproc da qualsiasi istanza di blocchi note gestiti nello stesso progetto regione.
Esegui un nuovo file del blocco note
Nell'interfaccia JupyterLab della tua istanza di blocchi note gestiti, Seleziona File > Nuovo > Blocco note.
I kernel disponibili per il cluster Dataproc sono visualizzati in il menu Seleziona kernel. Seleziona il kernel che vuoi utilizzare e poi fai clic su Seleziona.
Si apre il nuovo file del blocco note.
Aggiungi il codice al nuovo file del blocco note ed eseguilo.
Per cambiare il kernel che vuoi usare Dopo aver creato il file blocco note, consulta la sezione seguente.
Esegui un file blocco note esistente
Nell'interfaccia JupyterLab della tua istanza di blocchi note gestiti, fai clic sull'
Browser file, vai al file del blocco note che vuoi eseguire e aprilo.Per aprire la finestra di dialogo Seleziona kernel, fai clic sul nome del kernel del tuo blocco note come ad esempio Python (locale).
Per selezionare un kernel dal cluster Dataproc, seleziona un nome kernel che includa il nome del cluster alla fine. Ad esempio, un kernel PySpark su un cluster Dataproc denominato
mycluster
è denominato PySpark on mycluster.Fai clic su Seleziona per chiudere la finestra di dialogo.
Ora puoi eseguire il codice del file del tuo blocco note sul cluster Dataproc.
Passaggi successivi
- Scopri di più su Dataproc.