Obiettivi
Questo tutorial mostra come installare i componenti Jupyter e Anaconda di Dataproc in un nuovo cluster e come connettersi all'interfaccia utente del blocco note Jupyter in esecuzione sul cluster dal browser locale utilizzando il gateway dei componenti di Dataproc.
Costi
In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il Calcolatore prezzi.
Prima di iniziare
Se non lo hai già fatto, crea un progetto Google Cloud Platform e un bucket Cloud Storage.
Configurazione del progetto
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API Dataproc, Compute Engine, and Cloud Storage.
- Installa Google Cloud CLI.
-
Per initialize gcloud CLI, esegui questo comando:
gcloud init
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API Dataproc, Compute Engine, and Cloud Storage.
- Installa Google Cloud CLI.
-
Per initialize gcloud CLI, esegui questo comando:
gcloud init
Crea un bucket Cloud Storage nel progetto per archiviare i blocchi note creati in questo tutorial.
- Nella console Google Cloud, vai alla pagina Bucket di Cloud Storage.
- Fai clic su Crea bucket.
- Nella pagina Crea un bucket, inserisci le informazioni del bucket. Per andare al passaggio successivo, fai clic su Continua.
- In Assegna un nome al bucket, inserisci un nome che soddisfi i requisiti di denominazione dei bucket.
-
Per Scegli dove archiviare i tuoi dati, segui questi passaggi:
- Seleziona un'opzione Tipo di località.
- Seleziona un'opzione Località.
- In Scegli una classe di archiviazione predefinita per i dati, seleziona una classe di archiviazione.
- Per Scegli come controllare l'accesso agli oggetti, seleziona un'opzione Controllo dell'accesso.
- In Impostazioni avanzate (facoltative), specifica un metodo di crittografia, un criterio di conservazione o le etichette dei bucket.
- Fai clic su Crea. I tuoi blocchi note verranno archiviati in Cloud Storage in
gs://bucket-name/notebooks/jupyter
.
Crea un cluster e installa il componente Jupyter
Crea un cluster con il componente Jupyter installato.
Apri le UI Jupyter e JupyterLab
Fai clic sui link al gateway dei componenti della console Google Cloud nella console Google Cloud per aprire il blocco note Jupyter o le UI JupyterLab in esecuzione sul nodo master del cluster.
La directory di primo livello visualizzata dalla tua istanza Jupyter è una directory virtuale che consente di visualizzare i contenuti del bucket Cloud Storage o del file system locale. Puoi scegliere la posizione facendo clic sul link GCS per Cloud Storage o su Disco locale per il file system locale del nodo master nel cluster.
- Fai clic sul link GCS. L'interfaccia utente web del blocco note Jupyter mostra i blocchi note archiviati nel bucket Cloud Storage, inclusi quelli creati in questo tutorial.
Esegui la pulizia
Al termine del tutorial, puoi eseguire la pulizia delle risorse che hai creato in modo che smettano di utilizzare la quota e non incorrano in addebiti. Le sezioni seguenti descrivono come eliminare o disattivare queste risorse.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.
Per eliminare il progetto:
- Nella console Google Cloud, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.
Eliminazione del cluster
- Per eliminare il cluster:
gcloud dataproc clusters delete cluster-name \ --region=${REGION}
Eliminazione del bucket
- Per eliminare il bucket Cloud Storage creato in Prima di iniziare, passaggio 2, inclusi i blocchi note archiviati nel bucket:
gsutil -m rm -r gs://${BUCKET_NAME}
Passaggi successivi
- Consulta la guida rapida ai blocchi note Jupyter/IPython