Ejecuta una instancia de notebooks administrados en un clúster de Dataproc

En esta página, se muestra cómo ejecutar el archivo de notebook de una instancia de notebooks administrados en un clúster de Dataproc.

Antes de comenzar

Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.

En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

Ir al selector de proyectos

Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

Habilita las API de Notebooks and Dataproc.

Habilita las API

En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

Ir al selector de proyectos

Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

Habilita las API de Notebooks and Dataproc.

Habilita las API

Si aún no lo hiciste, crea una instancia de notebooks administrados.

Funciones obligatorias

A fin de garantizar que la cuenta de servicio tenga los permisos necesarios para ejecutar un archivo de notebook en un clúster de Dataproc Serverless, pídele a tu administrador que otorgue a la cuenta de servicio los siguientes roles de IAM:

Trabajador de Dataproc (roles/dataproc.worker) en tu proyecto
Editor de Dataproc (roles/dataproc.editor) en el clúster para el permiso dataproc.clusters.use

Si quieres obtener más información para otorgar funciones, consulta Administra el acceso.

Estos roles predefinidos contienen los permisos necesarios para ejecutar un archivo de notebook en un clúster de Dataproc Serverless. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Los siguientes permisos son necesarios para ejecutar un archivo de notebook en un clúster de Dataproc Serverless:

dataproc.agents.create
dataproc.agents.delete
dataproc.agents.get
dataproc.agents.update
dataproc.tasks.lease
dataproc.tasks.listInvalidatedLeases
dataproc.tasks.reportStatus
dataproc.clusters.use

Es posible que tu administrador también pueda otorgar estos permisos a la cuenta de servicio con roles personalizados o con otros roles predefinidos.

Cree un clúster de Dataproc

Para ejecutar un archivo de notebook de una instancia de notebooks administrados en un clúster de Dataproc, tu clúster debe cumplir con los siguientes criterios:

La puerta de enlace del componente del clúster debe estar habilitada.
El clúster debe tener el componente de Jupyter.
El clúster debe estar en la misma región que la instancia de notebooks administrados.

Para crear el clúster de Dataproc, ingresa el siguiente comando en Cloud Shell o en otro entorno en el que esté instalada Google Cloud CLI.

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

Reemplaza lo siguiente:

REGION: Es la ubicación de Google Cloud de tu instancia de notebook administrada.
CLUSTER_NAME: Es el nombre del clúster nuevo.

Después de unos minutos, el clúster de Dataproc estará disponible para su uso. Obtén más información sobre cómo crear clústeres de Dataproc.

Abre JupyterLab

Si aún no lo hiciste, crea una instancia de notebook administrada en la misma región en la que se encuentra tu clúster de Dataproc.
En la consola de Google Cloud, ve a la página Notebooks administrados.

Ir a Notebooks administrados
Junto al nombre de la instancia de notebooks administrados, haz clic en Abrir JupyterLab.

Ejecuta un archivo de notebook en tu clúster de Dataproc

Puedes ejecutar un archivo de notebook en tu clúster de Dataproc desde cualquier instancia de notebooks administrados en el mismo proyecto y región.

Ejecuta un nuevo archivo de notebook

En la interfaz de JupyterLab de tu instancia de notebooks administrados, selecciona Archivo> Nuevo> Notebook.
Los kernels disponibles de tu clúster de Dataproc aparecen en el menú Seleccionar kernel. Selecciona el kernel que deseas usar y haz clic en Seleccionar.

Se abrirá el archivo de notebook nuevo.
Agrega el código al archivo de notebook nuevo y ejecútalo.

Para cambiar el kernel que deseas usar después de crear tu archivo de notebook, consulta la siguiente sección.

Ejecuta un archivo de notebook existente

En la interfaz de JupyterLab de la instancia de notebook administrada, haz clic en el botón Navegador de archivos, navega hasta el archivo del notebook que deseas ejecutar y ábrelo.
Para abrir el diálogo Seleccionar kernel, haz clic en el nombre del kernel de tu archivo de notebook, por ejemplo: Python (Local).
Para seleccionar un kernel desde tu clúster de Dataproc, selecciona un nombre de kernel que incluya el nombre del clúster al final. Por ejemplo, un kernel de PySpark en un clúster de Dataproc llamado mycluster se llama PySpark en mycluster.
Haz clic en Seleccionar para cerrar el cuadro de diálogo.

Ahora puedes ejecutar el código del archivo de notebook en el clúster de Dataproc.

¿Qué sigue?

Obtén más información sobre Dataproc.