Utiliza el espacio de trabajo de Exploración de datos

El espacio de trabajo de exploración de datos en Dataplex (Explorar) te permite consultar de forma interactiva datos completamente administrados con acceso con un solo clic a secuencias de comandos de Spark SQL y notebooks de Jupyter. Explorar te permite colaborar entre equipos con las funciones integradas de publicación, uso compartido y búsqueda de elementos de codificación.

Explora el aprovisionamiento, escala y administra la infraestructura sin servidores necesaria para ejecutar notebooks y secuencias de comandos de Spark SQL con credenciales de usuario. Puedes poner en funcionamiento tu trabajo con programación sin servidores desde el área de trabajo.

En este documento, se describe cómo usar las funciones de Explorar en Dataplex.

Costos

Dataplex ofrece Explorar en el nivel de procesamiento premium.

Terminología

En este documento, se usan los siguientes términos:

Entorno

Un entorno proporciona recursos de procesamiento sin servidores para que las consultas de Spark SQL y los notebooks se ejecuten en un lake. Un administrador de Dataplex crea y administra entornos.

Los administradores pueden autorizar a uno o más usuarios a ejecutar consultas y notebooks en el entorno configurado si les otorgan la función de desarrollador o los permisos de IAM asociados.

Sesión

Cuando un usuario autorizado elige un entorno para ejecutar sus consultas y notebooks, Dataplex usa la configuración del entorno especificado a fin de crear una sesión activa específica del usuario. Según la configuración del entorno, si una sesión no está en uso, se finalizará automáticamente.

El inicio de una nueva sesión por usuario demora algunos minutos. Cuando se inicia una sesión, se ejecutan consultas y notebooks posteriores para el mismo usuario. Una sesión está activa durante un máximo de 10 horas.

Para un entorno, Dataplex crea solo una sesión por usuario, que se comparte tanto en las secuencias de comandos de Spark SQL como en los notebooks de Jupyter.

Dataplex usa credenciales de usuario dentro de una sesión para ejecutar operaciones, como la consulta de datos desde Cloud Storage y BigQuery.

Nodo

Un nodo especifica la capacidad de procesamiento en una configuración del entorno. Un nodo se asigna a 4 unidades de procesamiento de datos (DCU), que son comparables a 4 CPU virtuales y 16 GB de RAM.

Entorno predeterminado

Puedes crear un entorno predeterminado por lake con el ID default. Un entorno predeterminado debe usar una configuración predeterminada. Una configuración predeterminada consta de lo siguiente:

  • Capacidad de procesamiento de un nodo
  • Tamaño del disco principal de 100 GB
  • El cierre automático de la sesión (tiempo de cierre automático) se estableció en 10 minutos de tiempo de inactividad.
  • El parámetro sessionSpec.enableFastStartup, que se establece de forma predeterminada en true Cuando este parámetro se establece en true, Dataplex aprovisiona previamente las sesiones para este entorno a fin de que estén disponibles de forma inmediata, lo que reduce el tiempo de inicio de la sesión inicial.
  • Una sesión de inicio rápido es una sesión de nodo único que Dataplex cobra a las tarifas de un SKU de procesamiento premium de forma similar a una sesión normal. Hay un máximo de una sesión siempre activa disponible para un inicio rápido, lo que genera costos incluso cuando no está en uso. Dataplex mantiene activa esta sesión creada previamente durante 10 horas, la cierra y, luego, crea una sesión nueva.

Si no seleccionas un entorno de forma explícita y si configuraste uno predeterminado con anterioridad, Dataplex usa el entorno predeterminado para crear sesiones.

Secuencia de comandos de SQL

Una secuencia de comandos de SQL es una secuencia de comandos de Spark SQL que se guarda como contenido dentro de un lake de Dataplex. Puedes guardar la secuencia de comandos dentro de un lake y compartirla con otras principales. Además, puedes programarlo para que se ejecute como un trabajo por lotes de Spark sin servidores en Dataplex. Dataplex habilita el acceso de Spark SQL listo para usar a las tablas que se asignan a los datos en Cloud Storage y BigQuery.

Notebook

Un notebook de Python 3 es un notebook de Jupyter que se guarda como contenido en un lake de Dataplex. Puedes guardar un notebook como contenido dentro de un lake y compartirlo con otras principales o programarlo para que se ejecute como un trabajo por lotes de Spark sin servidores de Dataproc en Dataplex.

Para los datos en BigQuery, puedes acceder a las tablas de BigQuery directamente a través de Spark sin usar el comando automático %%bigquery.

Antes de comenzar

Antes de comenzar, vincula el lake a Dataproc Metastore y otorga los roles necesarios.

Vincula tu lake a Dataproc Metastore (DPMS)

Para usar Explorar, haz lo siguiente:

Aprende a configurar Dataproc Metastore con Dataplex para acceder a los metadatos en Spark.

Funciones obligatorias

Según las acciones que planees realizar, necesitarás las siguientes funciones de IAM. Todos los entornos de un lake heredan los permisos otorgados a nivel del lake.

Roles de IAM de Dataplex:

  • Visualizador de Dataplex
  • Desarrollador de Dataplex
  • Lector de metadatos de Dataplex
  • Lector de datos de Dataplex

Roles adicionales:

Logging

Para comprender el uso de Explorar, consulta los siguientes documentos:

Limitaciones conocidas

En esta sección, se describen las limitaciones conocidas de Explorar.

  • Explore está disponible para los lakes en las siguientes regiones:

    • asia-northeast1
    • asia-southeast1
    • europe-west1
    • europe-west2
    • us-central1
    • us-east1
    • us-west1
  • Puedes usar hasta 10 entornos por región en un proyecto. Si quieres obtener información para aumentar el límite de cuota, consulta Trabaja con cuotas.

  • Puedes crear entornos con un máximo de 150 nodos. La duración de las sesiones de usuarios individuales se restringe a 10 horas.

  • Las secuencias de comandos de Spark SQL solo pueden consultar datos dentro de un lake determinado. Si deseas consultar datos en un lake diferente, debes cambiar a ese lake y seleccionar un entorno dentro de él.

  • Después de recuperar un proyecto, Dataplex no restablece los recursos de contenido, como las secuencias de comandos de SQL o los notebooks. Procede con cuidado cuando borres un proyecto con los recursos de contenido de Explorar.

  • Cuando programas un notebook, si el entorno tiene paquetes personalizados, puedes programarlo solo con gcloud CLI. Para obtener más información, consulta Programa notebooks con paquetes personalizados.

  • Si borras un entorno antes de borrar las secuencias de comandos y los notebooks, no podrás acceder a la página Explorar. Por lo tanto, asegúrate de borrar las secuencias de comandos y los notebooks antes de borrar un entorno en Explorar.

  • Las sesiones de exploración no son compatibles con los sistemas de archivos distribuidos de Hadoop (HDFS). No debes almacenar datos del usuario en una sesión de Explorar porque se borran cuando esta finaliza.

  • El límite de tamaño máximo de un notebook o una secuencia de comandos de SQL es de 1 MB.

Crear un entorno

  1. En la consola de Google Cloud, ve a la página Manage Lakes de Dataplex.

    Ir a Dataplex

  2. Selecciona un lake de Dataplex para el que deseas crear un entorno.

  3. Haz clic en la pestaña Environments (Entornos).

  4. Haz clic en Crear entorno.

  5. En el campo Nombre visible, ingresa un nombre para tu entorno.

  6. En ID de entorno, ingresa un ID único.

  7. Ingresa una descripción para el entorno nuevo (opcional).

  8. En el panel Configurar procesamiento, especifica lo siguiente:

    1. Cantidad de nodos: La cantidad de nodos que se aprovisionarán a las sesiones de usuario creadas para este entorno.
    2. Cantidad máxima de nodos: Es la cantidad máxima de nodos que Dataplex puede escalar de forma automática en las sesiones de usuario asociadas con este entorno.
    3. Tamaño del disco principal: Es la cantidad de tamaño del disco asociado con cada nodo aprovisionado.
    4. Tiempo de cierre automático: El tiempo de inactividad después del cual Dataplex cierra automáticamente las sesiones de usuario asociadas con este entorno. Puedes establecer un mínimo de 10 minutos y un máximo de 60 minutos.
  9. En el panel Paquetes de software (opcional), puedes especificar paquetes de Python, archivos JAR y propiedades de Spark adicionales para instalar en las sesiones de usuario aprovisionadas para este entorno.

    Cuando creas un entorno y proporcionas la ruta de Cloud Storage para archivos JAR de Java o paquetes de Python, a fin de que Dataplex instale los archivos JAR o los paquetes, asegúrate de que el agente de servicio de Cloud Dataplex tenga los permisos necesarios para acceder a los archivos de Cloud Storage.

  10. Haz clic en Crear.

Notas

  • Un nodo se asigna a 4 unidades de procesamiento de datos (DCU), que son comparables a 4 CPU virtuales y 16 GB de RAM.

  • Puedes crear un entorno con un nodo, o con tres o más nodos.

  • Si eres administrador de lake, puedes configurar entornos con anticipación para permitir que los usuarios ejecuten sus cargas de trabajo con la configuración especificada previamente.

  • Aunque los entornos se pueden compartir con varios usuarios, Dataplex crea una sesión separada por usuario mediante la configuración del entorno.

Crea un entorno predeterminado

Consulta los requisitos de configuración para un entorno predeterminado.

Console

  1. Abre Dataplex en la consola de Google Cloud.

    Ir a Dataplex

  2. Navega hasta la vista Administrar.

  3. Selecciona un lake de Dataplex.

  4. Haz clic en la pestaña Environments (Entornos).

  5. Haz clic en Crear entorno predeterminado.

gcloud

Para crear un entorno predeterminado con el inicio rápido habilitado, ejecuta el siguiente comando:

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Explora datos con el área de trabajo de Spark SQL

Para explorar los datos de BigQuery y Cloud Storage, usa las secuencias de comandos de Spark SQL.

Cómo crear y guardar una secuencia de comandos

  1. En la consola de Google Cloud, ve a la página Explorar de Dataplex.

  2. En la vista Explorar, selecciona el lake que contiene los recursos de datos que deseas explorar.

  3. En el navegador de recursos, expande el lake. Se mostrarán las siguientes carpetas:

    • Datos: Contiene todas las bases de datos y tablas en la instancia de DPMS conectada a tu lake, incluidas las tablas de Hudi, Iceberg y Delta.
    • Notebooks: Contiene todos los notebooks creados en el lake seleccionado.
    • Secuencias de comandos de Spark SQL: Contiene todas las secuencias de comandos de Spark SQL creadas en el lake seleccionado.
  4. Expande Datos (Data) y selecciona la base de datos requerida y la tabla.

  5. Para usar una consulta de muestra, haz clic en CONSULTA. El espacio de trabajo de Spark SQL propaga automáticamente una pestaña nueva con una consulta de muestra.

  6. Para crear una secuencia de comandos nueva, en el editor de Spark SQL, haz clic en Nueva secuencia de comandos y, luego, ingresa tus consultas.

  7. Para guardar la secuencia de comandos, selecciona Guardar > Guardar secuencia de comandos.

Ejecuta una secuencia de comandos

  1. En el editor de Spark SQL, haz clic en la pestaña con la consulta que quieres ejecutar.

  2. Haz clic en Seleccionar entorno. Selecciona el entorno en el que deseas ejecutar la consulta. Si no seleccionas un entorno, Dataplex usa el entorno predeterminado para crear una sesión por usuario.

    Puedes ejecutar varias consultas de Spark SQL en la misma secuencia de comandos si separas las consultas con punto y coma.

  3. Haz clic en Ejecutar.

  4. Visualiza los resultados del Historial de consultas de cada una de las consultas de la secuencia de comandos mediante la lista desplegable.

Programa una secuencia de comandos

Puedes programar una secuencia de comandos para que se ejecute como una tarea de Dataplex. Si deseas obtener más información, consulta Crea y administra programaciones para secuencias de comandos de SQL.

Compartir una secuencia de comandos

Puedes compartir una secuencia de comandos con otras personas en la organización mediante los permisos de IAM:

  1. En la vista Explorar, haz clic en la secuencia de comandos de Spark SQL que quieres compartir.

  2. En el menú Más, haz clic en Compartir.

  3. Revisa los permisos. Agrega o quita permisos de visualizador, editor y administrador para la secuencia de comandos compartida.

Después de compartir una secuencia de comandos, los usuarios con permisos de lectura o edición a nivel del lake pueden navegar al lake y trabajar en la secuencia de comandos compartida.

Explorar datos de BigQuery y Cloud Storage con Spark SQL

Para cualquier conjunto de datos de BigQuery que se agregue como un recurso a una zona, Dataplex habilita el acceso directo de Spark SQL a todas las tablas en ese conjunto de datos. Puedes consultar datos en Dataplex mediante notebooks o secuencias de comandos de Spark SQL. Por ejemplo:

 select * from ZONE_ID.TABLE_ID

Si tus elementos se asignan a buckets de Cloud Storage en la misma zona, Dataplex proporciona una lista unificada de tablas que puedes consultar con Spark.

Explorar datos con notebooks

En esta sección, se describe cómo crear, programar, compartir, importar y exportar notebooks.

Crea y guarda un notebook

  1. En la consola de Google Cloud, ve a la página Explorar de Dataplex.

  2. En la vista Explorar, selecciona un lago.

  3. Expande el lake y haz clic en la carpeta Notebooks.

  4. Haz clic en Nuevo notebook.

  5. En el campo Ruta de acceso del notebook, ingresa el nombre del notebook.

  6. Opcional: En el campo Descripción, proporciona una descripción para el notebook nuevo.

  7. Opcional: Agrega etiquetas.

  8. Haz clic en Crear notebook. Se creó un notebook.

  9. Para abrir el notebook creado, haz clic en Abrir notebook.

  10. Selecciona un entorno en el que quieras que Dataplex cree una sesión de usuario cuando crees o abras tu notebook. Asegúrate de seleccionar un entorno con paquetes de confianza.

    Si no seleccionas un entorno, Dataplex usa el entorno predeterminado. Si no tienes un entorno, crea uno. Para obtener más información, consulta Crea un entorno.

    Ahora puedes explorar tus datos escribiendo código de Python y guardando el notebook después de la exploración. Más adelante, puedes obtener una vista previa del notebook creado y examinar su resultado sin crear una sesión ni ejecutar el código.

Programa un notebook

Puedes programar un notebook para que se ejecute como una tarea de Dataplex. Para obtener más información, consulta Crea y administra programas para notebooks.

Comparte un notebook

Puedes compartir un notebook con otras personas en la organización mediante los permisos de IAM:

  1. En la vista Explorar, haz clic en la carpeta Notebooks.

  2. Selecciona el notebook de Jupyter que quieres compartir.

  3. Haga clic en Compartir

  4. Revisa los permisos. Agrega o quita permisos de visualizador, editor y administrador para este notebook.

    Después de compartir un notebook, los usuarios con permisos de lectura o edición a nivel del lake pueden navegar al lake y trabajar en el notebook compartido.

Importa un notebook

Puedes importar un notebook desde un bucket de Cloud Storage:

  1. En la vista Explorar, haz clic en la carpeta Notebooks.

  2. Haz clic en Importar.

  3. Navega al bucket de Cloud Storage que contiene el notebook que deseas importar.

  4. Selecciona el notebook, ingresa un nombre y haz clic en Importar (Import).

    El notebook importado se crea en la carpeta Notebooks. Puedes abrir, editar, compartir y programar el notebook importado.

Exporta un notebook

Puedes exportar un notebook a un bucket de Cloud Storage para que otros miembros de la organización con permisos de IAM puedan usarlo.

  1. En la vista Explorar, haz clic en la carpeta Notebooks.

  2. Marca el notebook que deseas exportar.

  3. Haz clic en el menú y, luego, en Exportar.

  4. Ingresa la ruta de acceso de Cloud Storage a la que quieres exportar el notebook.

  5. Haz clic en Exportar notebook.

¿Qué sigue?