Instala y ejecuta un notebook de Jupyter en un clúster de Dataproc

Antes de comenzar

Si aún no lo has hecho, crea un proyecto de Google Cloud Platform y un depósito de Cloud Storage.

Configura tu proyecto

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. En la página Selector de proyectos de Cloud Console, selecciona o crea un proyecto de Cloud.

    Ir a la página Selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud. Obtén información sobre cómo confirmar que tienes habilitada la facturación para tu proyecto.

  4. Habilita las API de Dataproc and Compute Engine.

    Habilita las API

  5. Instala e inicializa el SDK de Cloud.

Cree un depósito de Cloud Storage en su proyecto

  1. En Cloud Console, ve a la página Navegador de Cloud Storage.

    Ir a la página Navegador de Cloud Storage

  2. Haz clic en Crear depósito.
  3. En el diálogo Crear depósito, especifica los siguientes atributos:
  4. Haga clic en Crear.
  5. Tus notebooks se almacenarán en Cloud Storage en gs://bucket-name/notebooks/jupyter.

Crear un clúster e instalar el componente de Jupyter

Comando de gcloud

  1. Ejecuta el siguiente comando gcloud beta dataproc clusters create de forma local en una ventana de la terminal o en Cloud Shell para:

    1. Crear tu clúster e instalar los componentes de Jupyter y Anaconda en el nodo principal del clúster.
    2. habilitar la puerta de enlace de componentes

    Inserta tus valores para cluster-name, bucket-name y project-id en el siguiente comando. Para bucket-name, especifica el nombre del depósito que creaste en Crea un depósito de Cloud Storage en tu proyecto (solo especifica el nombre del depósito). Tus notebooks se almacenarán en Cloud Storage en gs://bucket-name/notebooks/jupyter.

    Linux/macOS

        gcloud beta dataproc clusters create cluster-name \
            --optional-components=ANACONDA,JUPYTER \
            --image-version=1.3 \
            --enable-component-gateway \
            --bucket bucket-name \
            --region region \
            --project project-id
        

    Windows

        gcloud dataproc clusters create cluster-name ^
            --optional-components=ANACONDA,JUPYTER ^
            --image-version=1.3 ^
            --enable-component-gateway ^
            --bucket bucket-name ^
            --project project-id
        

Console

  1. Ve a la página Clústeres de Dataproc en Cloud Console.
  2. Haz clic en Create cluster (Crear clúster) para abrir la página Create a cluster (Crea un clúster).
  3. Ingresa el nombre de tu clúster en el campo Name (Nombre).
  4. Selecciona una región y zona para el clúster en los menús desplegables Región y Zona (consulta Regiones y zonas disponibles). Puedes especificar una región distinta y seleccionar "Sin preferencia" para que Dataproc elija una zona dentro de la región seleccionada para tu clúster (consulta Posición de Zona automática de Dataproc). En su lugar, puedes seleccionar una región global, que es un espacio de nombres multirregión especial que puede implementar instancias en todas las zonas de Compute Engine de forma global (cuando seleccionas una región global, también debes seleccionar una zona).
  5. Marca la casilla de verificación de la puerta de enlace de los componentes.
  6. Expande el panel de Advanced options (Opciones avanzadas).

  7. Ingresa el nombre del depósito que creaste en Crea un depósito de Cloud Storage en tu proyecto en el campo Cloud Storage staging bucket (Depósito de etapa de pruebas de Cloud Storage) (solo especifica el nombre del depósito). Tus notebooks se almacenarán en Cloud Storage en gs://bucket-name/notebooks/jupyter.
  8. Haz clic en Select component (Seleccionar componente) para abrir el panel de selección Optional components (Componentes opcionales).
  9. Selecciona los componentes "Anaconda" y "Notebook de Jupyter".
  10. Puedes usar los valores predeterminados proporcionados para las otras opciones.

  11. Haz clic en Crear para crear el clúster y, luego, instalar los componentes y la puerta de enlace del componente en el nodo principal del clúster.

Abre el notebook de Jupyter en tu navegador local.

  1. Navega hasta el formulario Clusters (Clústeres) de Dataproc en Google Cloud Console y, luego, selecciona tu clúster para abrir el formulario Cluster details (Detalles del clúster). Haz clic en la pestaña Web Interfaces (Interfaces web) para ver una lista de los vínculos de puerta de enlace de componentes a las interfaces web de los componentes predeterminados y opcionales instalados en el clúster.

  2. Haz clic en el vínculo Jupyter. La IU web del notebook de Jupyter se abre en tu navegador local.