Ejecuta una instancia de notebooks administrados en un clúster de Dataproc
En esta página, se muestra cómo ejecutar el archivo de notebook de una instancia de notebooks administrados en un clúster de Dataproc.
Antes de comenzar
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Enable the Notebooks and Dataproc APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Enable the Notebooks and Dataproc APIs.
- Si aún no lo hiciste, crea una instancia de notebooks administrados.
Roles obligatorios
Para garantizar que la cuenta de servicio tenga los permisos necesarios para ejecutar un archivo de notebook en un clúster de Dataproc Serverless, pídele a tu administrador que otorgue a la cuenta de servicio los siguientes roles de IAM:
-
Trabajador de Dataproc (
roles/dataproc.worker
) en tu proyecto -
Editor de Dataproc (
roles/dataproc.editor
) en el clúster para el permisodataproc.clusters.use
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Estos roles predefinidos contienen los permisos necesarios para ejecutar un archivo de notebook en un clúster de Dataproc Serverless. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:
Permisos necesarios
Los siguientes permisos son necesarios para ejecutar un archivo de notebook en un clúster de Dataproc Serverless:
-
dataproc.agents.create
-
dataproc.agents.delete
-
dataproc.agents.get
-
dataproc.agents.update
-
dataproc.tasks.lease
-
dataproc.tasks.listInvalidatedLeases
-
dataproc.tasks.reportStatus
-
dataproc.clusters.use
Es posible que tu administrador también pueda otorgar estos permisos a la cuenta de servicio con roles personalizados o con otros roles predefinidos.
Crea un clúster de Dataproc
Para ejecutar un archivo de notebook de una instancia de notebooks administrados en un clúster de Dataproc, tu clúster debe cumplir con los siguientes criterios:
La puerta de enlace del componente del clúster debe estar habilitada.
El clúster debe tener el componente de Jupyter.
El clúster debe estar en la misma región que la instancia de notebooks administrados.
Para crear el clúster de Dataproc, ingresa el siguiente comando en Cloud Shell o en otro entorno en el que esté instalada Google Cloud CLI.
gcloud dataproc clusters create CLUSTER_NAME\ --region=REGION \ --enable-component-gateway \ --optional-components=JUPYTER
Reemplaza lo siguiente:
REGION
: Es la ubicación de Google Cloud de tu instancia de notebook administrada.CLUSTER_NAME
: Es el nombre del clúster nuevo.
Después de unos minutos, el clúster de Dataproc estará disponible para su uso. Obtén más información sobre cómo crear clústeres de Dataproc.
Abre JupyterLab
Si aún no lo hiciste, crea una instancia de notebook administrada en la misma región en la que se encuentra tu clúster de Dataproc.
En la consola de Google Cloud, ve a la página Notebooks administrados.
Junto al nombre de la instancia de notebooks administrados, haz clic en Abrir JupyterLab.
Ejecuta un archivo de notebook en tu clúster de Dataproc
Puedes ejecutar un archivo de notebook en tu clúster de Dataproc desde cualquier instancia de notebooks administrados en el mismo proyecto y región.
Ejecuta un nuevo archivo de notebook
En la interfaz de JupyterLab de tu instancia de notebooks administrados, selecciona Archivo> Nuevo> Notebook.
Los kernels disponibles de tu clúster de Dataproc aparecen en el menú Seleccionar kernel. Selecciona el kernel que deseas usar y haz clic en Seleccionar.
Se abrirá el archivo de notebook nuevo.
Agrega el código al archivo de notebook nuevo y ejecútalo.
Para cambiar el kernel que deseas usar después de crear tu archivo de notebook, consulta la siguiente sección.
Ejecuta un archivo de notebook existente
En la interfaz de JupyterLab de la instancia de notebook administrada, haz clic en el botón
Navegador de archivos, navega hasta el archivo del notebook que deseas ejecutar y ábrelo.Para abrir el diálogo Seleccionar kernel, haz clic en el nombre del kernel de tu archivo de notebook, por ejemplo: Python (Local).
Para seleccionar un kernel desde tu clúster de Dataproc, selecciona un nombre de kernel que incluya el nombre del clúster al final. Por ejemplo, un kernel de PySpark en un clúster de Dataproc llamado
mycluster
se llama PySpark en mycluster.Haz clic en Seleccionar para cerrar el cuadro de diálogo.
Ahora puedes ejecutar el código del archivo de notebook en el clúster de Dataproc.
¿Qué sigue?
- Obtén más información sobre Dataproc.