Instala y ejecuta un notebook de Jupyter en un clúster de Dataproc

Antes de comenzar

Si aún no lo has hecho, crea un proyecto de Google Cloud Platform y un depósito de Cloud Storage.

Configura tu proyecto

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. En la página de selección de proyectos de Cloud Console, selecciona o crea un proyecto de Cloud.

    Ir a la página Selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud. Obtén información sobre cómo confirmar que tienes habilitada la facturación para tu proyecto.

  4. Habilita las API de Dataproc and Compute Engine.

    Habilita las API

  5. Instala e inicializa el SDK de Cloud.

Cree un depósito de Cloud Storage en su proyecto

  1. En Cloud Console ve a la página Navegador de Cloud Storage.

    Ir a la página Navegador de Cloud Storage

  2. Haz clic en Crear depósito.
  3. En el diálogo Crear depósito, especifica los siguientes atributos:
  4. Haz clic en Crear.
  5. Tus notebooks se almacenarán en Cloud Storage en gs://bucket-name/notebooks/jupyter.

Crea un clúster e instala el componente de Jupyter

Comando de gcloud

  1. Ejecuta el siguiente comando gcloud beta dataproc clusters create de forma local en una ventana de la terminal o en Cloud Shell para:

    1. Crear tu clúster e instalar los componentes de Jupyter y Anaconda en el nodo principal del clúster
    2. Habilitar la puerta de enlace de componentes

    Inserta tus valores para cluster-name, bucket-name y project-id en el siguiente comando. Para bucket-name, especifica el nombre del depósito que creaste en Crea un depósito de Cloud Storage en tu proyecto (solo especifica el nombre del depósito). Tus notebooks se almacenarán en Cloud Storage en gs://bucket-name/notebooks/jupyter.

    Linux/macOS

    gcloud beta dataproc clusters create cluster-name \
        --optional-components=ANACONDA,JUPYTER \
        --image-version=1.3 \
        --enable-component-gateway \
        --bucket=bucket-name \
        --region=region \
        --project=project-id
    

    Windows

    gcloud dataproc clusters create cluster-name ^
        --optional-components=ANACONDA,JUPYTER ^
        --image-version=1.3 ^
        --enable-component-gateway ^
        --bucket=bucket-name ^
        --region=region ^
        --project=project-id
    

Console

  1. Ve a la página de Clústeres de Dataproc de Dataproc en Cloud Console.
  2. Haz clic en Create cluster (Crear clúster) para abrir la página Create a cluster (Crea un clúster).
  3. Ingresa el nombre de tu clúster en el campo Name (Nombre).
  4. Selecciona una región y zona para el clúster en los menús desplegables Region (Región) y Zone (Zona) (consulta Regiones y zonas disponibles). Puedes especificar una región distinta y seleccionar "Sin preferencia" para que Dataproc elija una zona dentro de la región seleccionada para tu clúster (consulta Posición de zona automática de Dataproc). En su lugar, puedes seleccionar una región global, que es un espacio de nombres multirregión especial que puede implementar instancias en todas las zonas de Compute Engine a nivel global (cuando seleccionas una región global, también debes seleccionar una zona).
  5. Marca la casilla de verificación de la puerta de enlace de los componentes.
  6. Expande el panel de Advanced options (Opciones avanzadas).

  7. Ingresa el nombre del depósito que creaste en Crea un depósito de Cloud Storage en tu proyecto en el campo Cloud Storage staging bucket (Depósito de etapa de pruebas de Cloud Storage) (solo especifica el nombre del depósito). Tus notebooks se almacenarán en Cloud Storage en gs://bucket-name/notebooks/jupyter.
  8. Haz clic en Seleccionar componente para abrir el panel de selección Componentes opcionales.
  9. Selecciona los componentes "Anaconda" y "Notebook de Jupyter".
  10. Puedes mantener los valores predeterminados para otras opciones.

  11. Haz clic en Crear para crear el clúster y, luego, instalar los componentes y la puerta de enlace del componente en el nodo principal del clúster.

Abre el notebook de Jupyter en tu navegador local

  1. Navega hasta el formulario Clústeres de Dataproc en Google Cloud Console y, luego, selecciona tu clúster para abrir el formulario Detalles del clúster. Haz clic en la pestaña Interfaces web para ver una lista de los vínculos de puerta de enlace de componentes a las interfaces web de los componentes predeterminados y opcionales instalados en el clúster.

  2. Haz clic en el vínculo de Jupyter. La IU web del notebook de Jupyter se abre en tu navegador local.