Installazione ed esecuzione di un notebook Jupyter su un cluster Dataproc


Obiettivi

Questo tutorial mostra come installare i componenti Jupyter e Anaconda di Dataproc in un nuovo cluster e come connettersi all'interfaccia utente del blocco note Jupyter in esecuzione sul cluster dal browser locale utilizzando il gateway dei componenti di Dataproc.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud possono essere idonei a una prova senza costi aggiuntivi.

Prima di iniziare

Se non lo hai già fatto, crea un progetto Google Cloud Platform e un bucket Cloud Storage.

  1. Configurazione del progetto

    1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
    2. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

      Vai al selettore progetti

    3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

    4. Abilita le API Dataproc, Compute Engine, and Cloud Storage.

      Abilita le API

    5. Installa Google Cloud CLI.
    6. Per initialize gcloud CLI, esegui questo comando:

      gcloud init
    7. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

      Vai al selettore progetti

    8. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

    9. Abilita le API Dataproc, Compute Engine, and Cloud Storage.

      Abilita le API

    10. Installa Google Cloud CLI.
    11. Per initialize gcloud CLI, esegui questo comando:

      gcloud init

  2. Crea un bucket Cloud Storage nel progetto per archiviare i blocchi note creati in questo tutorial.

    1. Nella console Google Cloud, vai alla pagina Bucket di Cloud Storage.

      Vai alla pagina Bucket

    2. Fai clic su Crea bucket.
    3. Nella pagina Crea un bucket, inserisci le informazioni del bucket. Per andare al passaggio successivo, fai clic su Continua.
    4. Fai clic su Crea.
    5. I tuoi blocchi note verranno archiviati in Cloud Storage in gs://bucket-name/notebooks/jupyter.

Crea un cluster e installa il componente Jupyter

Crea un cluster con il componente Jupyter installato.

Apri le UI Jupyter e JupyterLab

Fai clic sui link al gateway dei componenti della console Google Cloud nella console Google Cloud per aprire il blocco note Jupyter o le UI JupyterLab in esecuzione sul nodo master del cluster.

La directory di primo livello visualizzata dalla tua istanza Jupyter è una directory virtuale che consente di visualizzare i contenuti del bucket Cloud Storage o del file system locale. Puoi scegliere la posizione facendo clic sul link GCS per Cloud Storage o su Disco locale per il file system locale del nodo master nel cluster.

  1. Fai clic sul link GCS. L'interfaccia utente web del blocco note Jupyter mostra i blocchi note archiviati nel bucket Cloud Storage, inclusi quelli creati in questo tutorial.

Esegui la pulizia

Al termine del tutorial, puoi eseguire la pulizia delle risorse che hai creato in modo che smettano di utilizzare la quota e non incorrano in addebiti. Le sezioni seguenti descrivono come eliminare o disattivare queste risorse.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Eliminazione del cluster

  • Per eliminare il cluster:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Eliminazione del bucket

  • Per eliminare il bucket Cloud Storage creato in Prima di iniziare, passaggio 2, inclusi i blocchi note archiviati nel bucket:
    gsutil -m rm -r gs://${BUCKET_NAME}
    

Passaggi successivi