Ejecuta una instancia de notebooks administrados en un clúster de Dataproc

En esta página, se muestra cómo ejecutar el archivo de notebook de una instancia de notebooks administrados en un clúster de Dataproc.

Antes de comenzar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Notebooks and Dataproc APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Notebooks and Dataproc APIs.

    Enable the APIs

  8. Si aún no lo hiciste, crea una instancia de notebooks administrados.

Roles obligatorios

Para garantizar que la cuenta de servicio tenga los permisos necesarios para ejecutar un archivo de notebook en un clúster de Dataproc Serverless, pídele a tu administrador que otorgue a la cuenta de servicio los siguientes roles de IAM:

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para ejecutar un archivo de notebook en un clúster de Dataproc Serverless. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Los siguientes permisos son necesarios para ejecutar un archivo de notebook en un clúster de Dataproc Serverless:

  • dataproc.agents.create
  • dataproc.agents.delete
  • dataproc.agents.get
  • dataproc.agents.update
  • dataproc.tasks.lease
  • dataproc.tasks.listInvalidatedLeases
  • dataproc.tasks.reportStatus
  • dataproc.clusters.use

Es posible que tu administrador también pueda otorgar estos permisos a la cuenta de servicio con roles personalizados o con otros roles predefinidos.

Crea un clúster de Dataproc

Para ejecutar un archivo de notebook de una instancia de notebooks administrados en un clúster de Dataproc, tu clúster debe cumplir con los siguientes criterios:

  • La puerta de enlace del componente del clúster debe estar habilitada.

  • El clúster debe tener el componente de Jupyter.

  • El clúster debe estar en la misma región que la instancia de notebooks administrados.

Para crear el clúster de Dataproc, ingresa el siguiente comando en Cloud Shell o en otro entorno en el que esté instalada Google Cloud CLI.

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

Reemplaza lo siguiente:

  • REGION: Es la ubicación de Google Cloud de tu instancia de notebook administrada.

  • CLUSTER_NAME: Es el nombre del clúster nuevo.

Después de unos minutos, el clúster de Dataproc estará disponible para su uso. Obtén más información sobre cómo crear clústeres de Dataproc.

Abre JupyterLab

  1. Si aún no lo hiciste, crea una instancia de notebook administrada en la misma región en la que se encuentra tu clúster de Dataproc.

  2. En la consola de Google Cloud, ve a la página Notebooks administrados.

    Ir a Notebooks administrados

  3. Junto al nombre de la instancia de notebooks administrados, haz clic en Abrir JupyterLab.

Ejecuta un archivo de notebook en tu clúster de Dataproc

Puedes ejecutar un archivo de notebook en tu clúster de Dataproc desde cualquier instancia de notebooks administrados en el mismo proyecto y región.

Ejecuta un nuevo archivo de notebook

  1. En la interfaz de JupyterLab de tu instancia de notebooks administrados, selecciona Archivo> Nuevo> Notebook.

  2. Los kernels disponibles de tu clúster de Dataproc aparecen en el menú Seleccionar kernel. Selecciona el kernel que deseas usar y haz clic en Seleccionar.

    Se abrirá el archivo de notebook nuevo.

  3. Agrega el código al archivo de notebook nuevo y ejecútalo.

Para cambiar el kernel que deseas usar después de crear tu archivo de notebook, consulta la siguiente sección.

Ejecuta un archivo de notebook existente

  1. En la interfaz de JupyterLab de la instancia de notebook administrada, haz clic en el botón  Navegador de archivos, navega hasta el archivo del notebook que deseas ejecutar y ábrelo.

  2. Para abrir el diálogo Seleccionar kernel, haz clic en el nombre del kernel de tu archivo de notebook, por ejemplo: Python (Local).

  3. Para seleccionar un kernel desde tu clúster de Dataproc, selecciona un nombre de kernel que incluya el nombre del clúster al final. Por ejemplo, un kernel de PySpark en un clúster de Dataproc llamado mycluster se llama PySpark en mycluster.

  4. Haz clic en Seleccionar para cerrar el cuadro de diálogo.

    Ahora puedes ejecutar el código del archivo de notebook en el clúster de Dataproc.

¿Qué sigue?

  • Obtén más información sobre Dataproc.