Instala y ejecuta un notebook de Jupyter en un clúster de Dataproc


Objetivos

En este instructivo, se muestra cómo instalar el componente de Jupyter de Dataproc en un clúster nuevo y, luego, conectarte a la IU del notebook de Jupyter que se ejecuta en el clúster desde tu navegador local mediante la puerta de enlace de componentes de Dataproc.

Costos

En este documento, usarás los siguientes componentes facturables de Google Cloud:

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios. Es posible que los usuarios nuevos de Google Cloud califiquen para obtener una prueba gratuita.

Antes de comenzar

Si aún no lo hiciste, crea un proyecto de Google Cloud y un bucket de Cloud Storage.

  1. Configura el proyecto

    1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
    2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    3. Make sure that billing is enabled for your Google Cloud project.

    4. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Enable the APIs

    5. Install the Google Cloud CLI.
    6. To initialize the gcloud CLI, run the following command:

      gcloud init
    7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    8. Make sure that billing is enabled for your Google Cloud project.

    9. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Enable the APIs

    10. Install the Google Cloud CLI.
    11. To initialize the gcloud CLI, run the following command:

      gcloud init

  2. Crea un bucket de Cloud Storage en tu proyecto para almacenar los notebooks que crees en este instructivo.

    1. In the Google Cloud console, go to the Cloud Storage Buckets page.

      Go to Buckets page

    2. Click Create bucket.
    3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
      • For Name your bucket, enter a name that meets the bucket naming requirements.
      • For Choose where to store your data, do the following:
        • Select a Location type option.
        • Select a Location option.
      • For Choose a default storage class for your data, select a storage class.
      • For Choose how to control access to objects, select an Access control option.
      • For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
    4. Click Create.
    5. Tus notebooks se almacenarán en Cloud Storage en gs://bucket-name/notebooks/jupyter.

Crea un clúster e instala el componente Jupyter

Crea un clúster con el componente de Jupyter instalado.

Abre las IU de Jupyter y JupyterLab

Haz clic en los vínculos de la puerta de enlace de componentes de la consola de Google Cloud en la consola de Google Cloud para abrir el notebook de Jupyter o las IU de JupyterLab que se ejecutan en el nodo principal de tu clúster.

El directorio de nivel superior que muestra tu instancia de Jupyter es un directorio virtual que te permite ver el contenido de tu bucket de Cloud Storage o de tu sistema de archivos local. Puedes elegir la ubicación si haces clic en el vínculo GCS de Cloud Storage o Disco local para el sistema de archivos local del nodo principal de tu clúster.

  1. Haz clic en el vínculo de GCS. La IU web del notebook de Jupyter muestra notebooks almacenados en tu bucket de Cloud Storage, incluidos los notebooks que crees en este instructivo.

Limpia

Una vez que completes el instructivo, puedes limpiar los recursos que creaste para que dejen de usar la cuota y generar cargos. En las siguientes secciones, se describe cómo borrar o desactivar estos recursos.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Borra el clúster

  • Para borrar tu clúster, realiza los siguientes pasos:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Borra el bucket

  • Para borrar el bucket de Cloud Storage que creaste en la sección Antes de comenzar, paso 2, incluye los notebooks almacenados en el bucket.
    gcloud storage rm gs://${BUCKET_NAME} --recursive
    

¿Qué sigue?