Installazione ed esecuzione di un notebook Jupyter su un cluster Dataproc


Obiettivi

Questo tutorial mostra come installare il componente Jupyter di Dataproc su un nuovo cluster e quindi connettersi all'interfaccia utente del blocco note Jupyter in esecuzione sul cluster dal browser locale utilizzando il gateway dei componenti di Dataproc.

Costi

In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi basata sull'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud potrebbero essere idonei per una prova gratuita.

Prima di iniziare

Se non l'hai ancora fatto, crea un progetto Google Cloud e un bucket Cloud Storage.

  1. Configurazione del progetto

    1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
    2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    3. Make sure that billing is enabled for your Google Cloud project.

    4. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Enable the APIs

    5. Install the Google Cloud CLI.
    6. To initialize the gcloud CLI, run the following command:

      gcloud init
    7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    8. Make sure that billing is enabled for your Google Cloud project.

    9. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Enable the APIs

    10. Install the Google Cloud CLI.
    11. To initialize the gcloud CLI, run the following command:

      gcloud init

  2. Crea un bucket Cloud Storage nel tuo progetto per archiviare i notebook che crei in questo tutorial.

    1. In the Google Cloud console, go to the Cloud Storage Buckets page.

      Go to Buckets page

    2. Click Create bucket.
    3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
      • For Name your bucket, enter a name that meets the bucket naming requirements.
      • For Choose where to store your data, do the following:
        • Select a Location type option.
        • Select a Location option.
      • For Choose a default storage class for your data, select a storage class.
      • For Choose how to control access to objects, select an Access control option.
      • For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
    4. Click Create.
    5. I tuoi notebook verranno archiviati in Cloud Storage in gs://bucket-name/notebooks/jupyter.

Crea un cluster e installa il componente Jupyter

Crea un cluster con il componente Jupyter installato.

Apri le UI di Jupyter e JupyterLab

Fai clic sui link della console Google Cloud Component Gateway nella console Google Cloud per aprire il Jupyter Notebook o le UI di JupyterLab in esecuzione sul nodo principale del cluster.

La directory di primo livello visualizzata dall'istanza Jupyter è una directory virtuale che ti consente di visualizzare i contenuti del bucket Cloud Storage o del file system locale. Puoi scegliere facendo clic sul link GCS per Cloud Storage oppure Disco locale per il file system locale del nodo master nel cluster.

  1. Fai clic sul link GCS. La UI web del blocco note Jupyter mostra blocchi note archiviati nel tuo bucket Cloud Storage, tra cui i blocchi note che crei in questo tutorial.

Esegui la pulizia

Al termine del tutorial, puoi eseguire la pulizia delle risorse che hai creato in modo che smettono di usare la quota e comportano addebiti. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Eliminazione del cluster

  • Per eliminare il cluster:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Eliminazione del bucket

  • Per eliminare il bucket Cloud Storage creato Prima di iniziare, passaggio 2, inclusi i blocchi note archiviati nel bucket:
    gcloud storage rm gs://${BUCKET_NAME} --recursive
    

Passaggi successivi