Usar el espacio de trabajo de Exploración de datos

El espacio de trabajo de exploración de datos en Dataplex (Explorar) te permite consultar de forma interactiva datos administrados por completo con acceso con un solo clic a las secuencias de comandos de Spark SQL y los notebooks de Jupyter. Explorar te permite colaborar entre equipos con funciones integradas de publicación, uso compartido y búsqueda de elementos de programación.

Explora el aprovisionamiento, la escala y la administración de la infraestructura sin servidores necesaria para ejecutar notebooks y secuencias de comandos de Spark SQL con credenciales de usuario. Puedes poner en funcionamiento tu trabajo con la programación sin servidores desde el área de trabajo.

En este documento, se describe cómo usar las funciones de Explorar en Dataplex.

Costos

Dataplex ofrece Explorar en el nivel de procesamiento Premium.

Terminología

En este documento, se usan los siguientes términos:

Entorno

Un entorno proporciona recursos de procesamiento sin servidores para que tus consultas y notebooks de Spark SQL se ejecuten dentro de un lake. Un administrador de Dataplex crea y administra entornos.

Los administradores pueden autorizar a uno o más usuarios a ejecutar consultas y notebooks en el entorno configurado. Para ello, deben otorgarles la función de desarrollador o los permisos de IAM asociados.

Sesión

Cuando un usuario autorizado elige un entorno para ejecutar sus consultas y notebooks, Dataplex usa la configuración del entorno especificado para crear una sesión activa específica del usuario. Según la configuración del entorno, si una sesión no está en uso, se finalizará automáticamente.

El inicio de una nueva sesión por usuario demora un par de minutos. Una vez que se inicia una sesión, se ejecutan consultas y notebooks posteriores para el mismo usuario. Una sesión está activa por un máximo de 10 horas.

Para un entorno, Dataplex crea solo una sesión por usuario, que se comparte en las secuencias de comandos de Spark SQL y en los notebooks de Jupyter.

Dataplex usa credenciales de usuario dentro de una sesión para ejecutar operaciones, como consultar datos desde Cloud Storage y BigQuery.

Nodo

Un nodo especifica la capacidad de procesamiento en una configuración del entorno. Un nodo se asigna a 4 unidades de procesamiento de datos (DCU), que es comparable con 4 CPU virtuales y 16 GB de RAM.

Entorno predeterminado

Puedes crear un entorno predeterminado por lake con el ID default. Un entorno predeterminado debe usar una configuración predeterminada. Una configuración predeterminada consiste en lo siguiente:

Capacidad de procesamiento de un nodo
Tamaño del disco principal de 100 GB
Cierre automático de la sesión (tiempo de cierre automático) establecido en 10 minutos de tiempo de inactividad
El parámetro sessionSpec.enableFastStartup, que se establece de forma predeterminada como true Cuando este parámetro se establece en true, Dataplex aprovisiona previamente las sesiones para este entorno a fin de que estén disponibles, lo que reduce el tiempo de inicio de la sesión inicial.
Una sesión de inicio rápido es una sesión de un solo nodo que Dataplex cobra a las tarifas de un SKU de procesamiento premium de forma similar a una sesión normal. Un máximo de una sesión siempre activa está disponible para un inicio rápido, lo que genera costos incluso cuando no se usa. Dataplex mantiene activa esta sesión creada previamente por 10 horas, la cierra y, luego, crea una sesión nueva.

Si no seleccionas un entorno de forma explícita y si configuraste uno predeterminado con anterioridad, Dataplex usa el entorno predeterminado para crear sesiones.

Secuencia de comandos de SQL

Una secuencia de comandos de SQL es una secuencia de comandos de Spark SQL que se guarda como contenido dentro de un dataplex lake. Puedes guardar la secuencia de comandos en un lake y compartirla con otras principales. Además, puedes programarlo para que se ejecute como un trabajo de Spark por lotes sin servidores en Dataplex. Dataplex permite el acceso de Spark SQL listo para usar a las tablas que se asignan a datos en Cloud Storage y BigQuery.

Notebook

Un notebook de Python 3 es un notebook de Jupyter que guardas como contenido en un lake de Dataplex. Puedes guardar un notebook como contenido dentro de un lake y compartirlo con otras principales o programarlo para que se ejecute como un trabajo por lotes de Dataproc Serverless Spark en Dataplex.

Para los datos en BigQuery, puedes acceder a las tablas de BigQuery directamente a través de Spark sin usar el comando mágico %%bigquery.

Antes de comenzar

Antes de comenzar, vincula tu lake a Dataproc Metastore y otorga los roles necesarios.

Vincula tu lake a Dataproc Metastore (DPMS)

Para usar Explorar, haz lo siguiente:

Asocia una instancia de Dataproc Metastore (DPMS) habilitada para gRPC en la versión 3.1.2 o posterior con el lake de Dataplex.
Asegúrate de tener un Dataproc Metastore y un entorno asignado a tu lake.

Aprende a configurar Dataproc Metastore con Dataplex para acceder a los metadatos en Spark.

Funciones obligatorias

Según las acciones que planees realizar, necesitas todas las siguientes funciones de IAM. Todos los entornos de un lake heredan los permisos otorgados a nivel del lake.

Roles de IAM de Dataplex:

Visualizador de Dataplex
Desarrollador de Dataplex
Lector de metadatos de Dataplex
Lector de datos de Dataplex

Roles adicionales:

Logging

Para comprender el uso de Explorar, consulta los siguientes documentos:

Limitaciones conocidas

En esta sección, se describen las limitaciones conocidas de Explorar.

La función Explorar está disponible para los lakes en las siguientes regiones:
- asia-northeast1
- asia-southeast1
- europe-west1
- europe-west2
- us-central1
- us-east1
- us-west1
Puedes usar hasta 10 entornos por región en un proyecto. Si quieres obtener información para aumentar el límite de la cuota, consulta Trabaja con cuotas.
Puedes crear entornos con un máximo de 150 nodos. La duración de las sesiones de usuarios individuales se restringe a 10 horas.
Las secuencias de comandos de Spark SQL solo pueden consultar datos dentro de un lake determinado. Si deseas consultar datos en un lake diferente, debes cambiar a ese lake y seleccionar un entorno dentro de ese lake.
Después de recuperar un proyecto, Dataplex no restablece los recursos de contenido, como las secuencias de comandos de SQL o los notebooks. Procede con cuidado cuando borres un proyecto con los recursos de contenido de Explorar.
Cuando programas un notebook, si el entorno tiene paquetes personalizados, solo puedes programarlo con gcloud CLI. Para obtener más información, consulta Programa notebooks con paquetes personalizados.
Si borras un entorno antes de borrar las secuencias de comandos y los notebooks, no podrás acceder a la página Explorar. Por lo tanto, asegúrate de borrar las secuencias de comandos y los notebooks antes de borrar un entorno en Explorar.
Las sesiones de exploración no son compatibles con los sistemas de archivos distribuidos de Hadoop (HDFS). No almacenes datos del usuario en una sesión de Explorar porque se borran cuando esta finaliza.
El límite de tamaño máximo de un notebook o una secuencia de comandos de SQL es de 1 MB.

Crear un entorno

En la consola de Google Cloud, ve a la página Administrar data lakes de Dataplex.

Ir a Dataplex
Selecciona el lake de Dataplex para el que deseas crear un entorno.
Haz clic en la pestaña Environments (Entornos).
Haz clic en Crear entorno.
En el campo Nombre visible (Display name), ingresa un nombre para tu entorno.
En ID de entorno, ingresa un ID único.
Opcional: Ingresa una descripción para el entorno nuevo.
En el panel Configurar procesamiento, especifica lo siguiente:
1. Cantidad de nodos: Es la cantidad de nodos que se aprovisionarán para las sesiones de usuario creadas en este entorno.
2. Cantidad máxima de nodos: Es la cantidad máxima de nodos que Dataplex puede ajustar de forma automática en las sesiones de usuario asociadas con este entorno.
3. Tamaño del disco principal: Es la cantidad de tamaño del disco asociado con cada nodo aprovisionado.
4. Tiempo de cierre automático: El tiempo de inactividad después del cual Dataplex cierra automáticamente las sesiones de usuario asociadas con este entorno. Puedes configurar un mínimo de 10 minutos y un máximo de 60 minutos.
En el panel Paquetes de software (opcional), puedes especificar paquetes de Python, archivos JAR y propiedades de Spark adicionales para instalarlos en las sesiones de usuario aprovisionadas para este entorno.

Cuando creas un entorno y proporcionas la ruta de Cloud Storage para archivos JAR de Java o Python, a fin de que Dataplex instale los archivos JAR o paquetes, asegúrate de que el agente de servicio de Cloud Dataplex tenga los permisos necesarios para acceder a los archivos de Cloud Storage.
Haz clic en Crear.

Notas

Un nodo se asigna a 4 unidades de procesamiento de datos (DCU), que es comparable a 4 CPU virtuales y 16 GB de RAM.
Puedes crear un entorno con un nodo o con tres o más nodos.
Si eres administrador de lake, puedes configurar entornos con anticipación, lo que permite a los usuarios ejecutar sus cargas de trabajo con la configuración especificada previamente.
Aunque los entornos se pueden compartir con varios usuarios, Dataplex crea una sesión separada por usuario mediante la configuración del entorno.

Crea un entorno predeterminado

Consulta los requisitos de configuración para un entorno predeterminado.

Console

Abre Dataplex en la consola de Google Cloud.

Ir a Dataplex
Navega hasta la vista Administrar.
Selecciona un lake de Dataplex.
Haz clic en la pestaña Environments (Entornos).
Haz clic en Crear entorno predeterminado.

gcloud

Para crear un entorno predeterminado con el inicio rápido habilitado, ejecuta el siguiente comando:

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Explora datos con el área de trabajo de Spark SQL

Para explorar datos de BigQuery y Cloud Storage, usa secuencias de comandos de Spark SQL.

Cómo crear y guardar una secuencia de comandos

En la consola de Google Cloud, ve a la página Explorar de Dataplex.
En la vista Explorar, selecciona el lake que contiene los recursos de datos que deseas explorar.
En el navegador de recursos, expande el lake. Se mostrarán las siguientes carpetas:
- Datos: Contiene todas las bases de datos y tablas en la instancia de DPMS conectada a tu lake, incluidas las tablas de Hudi, Iceberg y Delta lake.
- Notebooks: Contiene todos los notebooks creados en el lake seleccionado.
- Secuencias de comandos de Spark SQL: Contiene todas las secuencias de comandos de Spark SQL creadas en el lake seleccionado.
Expande Datos y selecciona la base de datos y la tabla requeridas.
Para usar una consulta de muestra, haz clic en CONSULTA. El área de trabajo de Spark SQL propaga automáticamente una pestaña nueva con una consulta de muestra.
Para crear una secuencia de comandos nueva, en el Editor de Spark SQL, haz clic en Nueva secuencia de comandos y, luego, ingresa tus consultas.
Para guardar la secuencia de comandos, selecciona Guardar > Guardar secuencia de comandos.

Nota: Dataproc Metastore representa una zona de Dataplex como una base de datos y, además, identifica una secuencia de comandos de Spark SQL como zone-id.table-id.
Si recibes un error database not found, ejecuta show databases en el Editor de Spark SQL y verifica el nombre de la base de datos.

Ejecuta una secuencia de comandos

En el Editor de Spark SQL, haz clic en la pestaña con la consulta que quieres ejecutar.
Haz clic en Seleccionar entorno. Selecciona el entorno en el que quieres ejecutar la consulta. Si no seleccionas un entorno, Dataplex usa el entorno predeterminado para crear una sesión por usuario.

Puedes ejecutar varias consultas de Spark SQL en la misma secuencia de comandos si separas las consultas con punto y coma.
Haz clic en Ejecutar.
Visualiza los resultados del Historial de consultas de cada una de las consultas de la secuencia de comandos mediante la lista desplegable.

Cómo programar una secuencia de comandos

Puedes programar una secuencia de comandos para que se ejecute como una tarea de Dataplex. Si deseas obtener más información, consulta Crea y administra programaciones para secuencias de comandos de SQL.

Puedes compartir una secuencia de comandos con otras personas de la organización mediante permisos de IAM:

En la vista Explorar, haz clic en la secuencia de comandos de Spark SQL que quieres compartir.
En el menú Más, haz clic en Compartir.
Revisa los permisos. Agrega o quita los permisos de visualizador, editor y administrador para la secuencia de comandos compartida.

Después de compartir una secuencia de comandos, los usuarios con permisos de lectura o edición a nivel del lake pueden navegar al lake y trabajar en la secuencia de comandos compartida.

Explorar datos de BigQuery y Cloud Storage con Spark SQL

Para cualquier conjunto de datos de BigQuery que se agregue como un recurso a una zona, Dataplex habilita el acceso directo a Spark SQL a todas las tablas en ese conjunto de datos. Puedes consultar datos en Dataplex mediante notebooks o secuencias de comandos de Spark SQL. Por ejemplo:

 select * from ZONE_ID.TABLE_ID

Si tus elementos se asignan a buckets de Cloud Storage en la misma zona, Dataplex proporciona una lista unificada de tablas que puedes consultar con Spark.

Explorar datos con notebooks

En esta sección, se describe cómo crear, programar, compartir, importar y exportar notebooks.

Crea y guarda un notebook

En la consola de Google Cloud, ve a la página Explorar de Dataplex.
En la vista Explorar, selecciona un lago.
Expande el lake y haz clic en la carpeta Notebooks.
Haz clic en Notebook nuevo.
En el campo Ruta de acceso del notebook, ingresa el nombre del notebook.
Opcional: En el campo Descripción, proporciona una descripción para el notebook nuevo.
Opcional: Agrega etiquetas.
Haz clic en Crear notebook. Se creó un notebook.
Para abrir el notebook creado, haz clic en Abrir notebook.
Selecciona un entorno en el que quieres que Dataplex cree una sesión de usuario cuando crees o abras tu notebook. Asegúrate de seleccionar un entorno con paquetes de confianza.

Si no seleccionas un entorno, Dataplex usa el entorno predeterminado. Si no tienes un entorno, crea uno. Para obtener más información, consulta Crea un entorno.

Ahora puedes explorar tus datos escribiendo código de Python y guardando el notebook después de la exploración. Más adelante, puedes obtener una vista previa del notebook creado y examinar su resultado sin crear una sesión ni ejecutar el código.

Programa un notebook

Puedes programar un notebook para que se ejecute como una tarea de Dataplex. Para obtener más información, consulta Crea y administra programas para notebooks.

Puedes compartir un notebook con otras personas de la organización mediante los permisos de IAM:

En la vista Explorar, haz clic en la carpeta Notebooks.
Selecciona el notebook de Jupyter que quieres compartir.
Haz clic en Compartir
Revisa los permisos. Agrega o quita los permisos de visualizador, editor y administrador para este notebook.

Después de compartir un notebook, los usuarios con permisos de lectura o edición a nivel del lake pueden navegar al lake y trabajar en el notebook compartido.

Importa un notebook

Puedes importar un notebook desde un bucket de Cloud Storage:

En la vista Explorar, haz clic en la carpeta Notebooks.
Haz clic en Importar.
Navega al bucket de Cloud Storage que contiene el notebook que deseas importar.
Selecciona el notebook, proporciona un nombre y haz clic en Importar (Import).

El notebook importado se crea en la carpeta Notebooks. Puedes abrir, editar, compartir y programar el notebook importado.

Exporta un notebook

Puedes exportar un notebook a un bucket de Cloud Storage para que lo usen otras personas en la organización con permisos de IAM.

En la vista Explorar, haz clic en la carpeta Notebooks.
Marca el notebook que deseas exportar.
Haz clic en el menú y, luego, en Exportar.
Ingresa la ruta de acceso de Cloud Storage donde quieres exportar el notebook.
Haz clic en Exportar notebook.