Installazione ed esecuzione di un notebook Jupyter su un cluster Dataproc


Obiettivi

Questo tutorial mostra come installare Dataproc Componente Jupyter su un nuovo cluster, quindi connettiti alla UI del blocco note Jupyter in esecuzione dal tuo browser locale utilizzando Dataproc Gateway dei componenti.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi basata sull'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud potrebbero essere idonei per una prova gratuita.

Prima di iniziare

Se non lo hai già fatto, crea un progetto Google Cloud Bucket di Cloud Storage.

  1. Configurazione del progetto

    1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
    2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

    4. Abilita le API Dataproc, Compute Engine, and Cloud Storage.

      Abilita le API

    5. Install the Google Cloud CLI.
    6. To initialize the gcloud CLI, run the following command:

      gcloud init
    7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    8. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

    9. Abilita le API Dataproc, Compute Engine, and Cloud Storage.

      Abilita le API

    10. Install the Google Cloud CLI.
    11. To initialize the gcloud CLI, run the following command:

      gcloud init

  2. Creazione di un bucket Cloud Storage nel tuo progetto per archiviare i blocchi note che crei in questo tutorial.

    1. Nella console Google Cloud, vai alla pagina Bucket di Cloud Storage.

      Vai alla pagina Bucket

    2. Fai clic su Crea bucket.
    3. Nella pagina Crea un bucket, inserisci le informazioni del bucket. Per andare al passaggio successivo, fai clic su Continua.
    4. Fai clic su Crea.
    5. I blocchi note verranno archiviati in Cloud Storage in gs://bucket-name/notebooks/jupyter,

Crea un cluster e installa il componente Jupyter

Crea un cluster con il componente Jupyter installato.

Apri le UI di Jupyter e JupyterLab

Fai clic sui link al gateway dei componenti della console Google Cloud. nella console Google Cloud per aprire il blocco note Jupyter o JupyterLab in esecuzione sul nodo master del cluster.

La directory di primo livello visualizzata dall'istanza Jupyter è una che ti consente di vedere i contenuti dei tuoi nel bucket Cloud Storage o nel file system locale. Puoi scegliere fai clic sul link GCS per Cloud Storage oppure Disco locale per il file system locale del nodo master nel cluster.

  1. Fai clic sul link GCS. La UI web del blocco note Jupyter mostra blocchi note archiviati nel tuo bucket Cloud Storage, tra cui i blocchi note che crei in questo tutorial.

Esegui la pulizia

Al termine del tutorial, puoi eseguire la pulizia delle risorse che hai creato in modo che smettono di usare la quota e comportano addebiti. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione creato per il tutorial.

Per eliminare il progetto:

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Eliminazione del cluster

  • Per eliminare il cluster:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Eliminazione del bucket

  • Per eliminare il bucket Cloud Storage creato Prima di iniziare, passaggio 2, inclusi i blocchi note archiviati nel bucket:
    gcloud storage rm gs://${BUCKET_NAME} --recursive
    

Passaggi successivi