Instala y ejecuta un notebook de Jupyter en un clúster de Dataproc


Objetivos

En este instructivo, se muestra cómo instalar los componentes de Jupyter y Anaconda de Dataproc en un clúster nuevo y, luego, conectarte a la IU del notebook de Jupyter que se ejecuta en el clúster desde tu navegador local mediante la puerta de enlace de componentes de Dataproc.

Costos

En este documento, usarás los siguientes componentes facturables de Google Cloud:

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios. Es posible que los usuarios nuevos de Google Cloud califiquen para obtener una prueba gratuita.

Antes de comenzar

Si aún no lo has hecho, crea un proyecto de Google Cloud Platform y un bucket de Cloud Storage.

  1. Configura tu proyecto

    1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
    2. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

      Ir al selector de proyectos

    3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

    4. Habilita las API de Dataproc, Compute Engine, and Cloud Storage.

      Habilita las API

    5. Instala Google Cloud CLI.
    6. Para inicializar la CLI de gcloud, ejecuta el siguiente comando:

      gcloud init
    7. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

      Ir al selector de proyectos

    8. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

    9. Habilita las API de Dataproc, Compute Engine, and Cloud Storage.

      Habilita las API

    10. Instala Google Cloud CLI.
    11. Para inicializar la CLI de gcloud, ejecuta el siguiente comando:

      gcloud init

  2. Crea un bucket de Cloud Storage en tu proyecto para almacenar los notebooks que crees en este instructivo.

    1. En la consola de Google Cloud, ve a la página Buckets de Cloud Storage.

      Ir a la página Buckets

    2. Haga clic en Crear bucket.
    3. En la página Crear un bucket, ingresa la información de tu bucket. Para ir al paso siguiente, haz clic en Continuar.
    4. Haga clic en Crear.
    5. Tus notebooks se almacenarán en Cloud Storage en gs://bucket-name/notebooks/jupyter.

Crea un clúster e instala el componente Jupyter

Crea un clúster con el componente de Jupyter instalado.

Abre las IU de Jupyter y JupyterLab

Haz clic en los vínculos de la puerta de enlace de componentes de la consola de Google Cloud en la consola de Google Cloud para abrir el notebook de Jupyter o las IU de JupyterLab que se ejecutan en el nodo principal de tu clúster.

El directorio de nivel superior que muestra tu instancia de Jupyter es un directorio virtual que te permite ver el contenido de tu bucket de Cloud Storage o de tu sistema de archivos local. Puedes elegir la ubicación si haces clic en el vínculo GCS de Cloud Storage o Disco local para el sistema de archivos local del nodo principal de tu clúster.

  1. Haz clic en el vínculo de GCS. La IU web del notebook de Jupyter muestra notebooks almacenados en tu bucket de Cloud Storage, incluidos los notebooks que crees en este instructivo.

Limpia

Una vez que completes el instructivo, puedes limpiar los recursos que creaste para que dejen de usar la cuota y generar cargos. En las siguientes secciones, se describe cómo borrar o desactivar estos recursos.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

Borra el clúster

  • Para borrar tu clúster, haz lo siguiente:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Borra el bucket

  • Para borrar el bucket de Cloud Storage que creaste en la sección Antes de comenzar, paso 2, incluye los notebooks almacenados en el bucket.
    gsutil -m rm -r gs://${BUCKET_NAME}
    

¿Qué sigue?