Usa el área de trabajo de exploración de datos

El área de trabajo de exploración de datos en Dataplex (Explorar) te permite interactuar de forma interactiva consultar datos completamente administrados con acceso de un clic a Spark SQL secuencias de comandos y notebooks de Jupyter. Explorar te permite colaborar entre equipos con la publicación, el uso compartido y la búsqueda de activos de programación integrados.

Explorar el aprovisionamiento, el escalamiento y la administración de la infraestructura sin servidores necesarios para ejecutar tus secuencias de comandos y notebooks de Spark SQL con credenciales de usuario. Puedes poner en funcionamiento tu trabajo con la programación sin servidores desde el área de trabajo.

En este documento, se describe cómo usar las funciones de Explorar en Dataplex

Costos

Dataplex ofrece Explorar nivel de procesamiento premium.

Terminología

En este documento, se usan los siguientes términos:

Entorno

Un entorno proporciona recursos de procesamiento sin servidores para tu Spark SQL y notebooks para ejecutar en un lake. Dataplex administrador crea y administra entornos.

Los administradores pueden autorizar a uno o más usuarios para que ejecuten consultas y notebooks. en el entorno configurado otorgándoles Rol de desarrollador o los permisos de IAM asociados.

Sesión

Cuando un usuario autorizado elige un entorno para ejecutar sus consultas y en notebooks, Dataplex usa la configuración del entorno para crear una sesión activa específica para el usuario. Según el entorno predeterminada, si una sesión no está en uso, finaliza automáticamente.

Tardará un par de minutos en iniciar una nueva sesión por usuario. Una vez por sesión inicia, ejecuta consultas posteriores y notebooks para el mismo usuario. Una sesión es que esté activa durante un máximo de 10 horas.

Para un entorno, Dataplex crea solo una sesión por usuario, que se comparte con las secuencias de comandos de Spark SQL y los notebooks de Jupyter.

Dataplex usa credenciales de usuario en una sesión para ejecutar operaciones, como consultar los datos de Cloud Storage y en BigQuery.

Nodo

Un nodo especifica la capacidad de procesamiento en una configuración de entorno. Un nodo se asigna a 4 unidades de procesamiento de datos (DCU), que es comparable a 4 CPU virtuales y 16 GB de RAM

Entorno predeterminado

Puedes crear un entorno predeterminado por lake con el ID default. Un entorno predeterminado debe usar una configuración predeterminada. Una configuración predeterminada consta de lo siguiente:

  • Capacidad de procesamiento de un nodo
  • Tamaño del disco principal de 100 GB
  • Cierre automático de la sesión (tiempo de apagado automático) establecido en 10 minutos de tiempo de inactividad
  • El parámetro sessionSpec.enableFastStartup, que se establece de forma predeterminada en true Cuando este parámetro se establece en true, Dataplex aprovisiona previamente las sesiones para este entorno para que estén disponible, lo que reduce el tiempo de inicio de la sesión inicial.
  • Una sesión de inicio rápido es una sesión de un solo nodo, a la que Dataplex cargos en SKU de procesamiento Premium similares a las de una sesión regular. Se permite como máximo una sesión siempre activa y están disponibles para un inicio rápido, lo que genera costos incluso cuando no se usa. Dataplex mantiene activa esta sesión creada previamente durante 10 horas, la apaga y, luego, crea una nueva sesión.

Si no seleccionas un entorno de forma explícita y si estableciste una configuración entorno de prueba, Dataplex usa el entorno para crear sesiones.

Secuencia de comandos de SQL

Una secuencia de comandos de SQL es una secuencia de comandos de Spark SQL que se guarda como contenido dentro de una Lake de Dataplex. Puedes guardar la secuencia de comandos en un lake y compartirlo con otros directores. También puedes programarlo para que se ejecute por lotes de Spark sin servidores en Dataplex. Dataplex habilita acceso listo para usar en Spark SQL a tablas que se asignan a datos en Cloud Storage y BigQuery.

Notebook

Un notebook de Python 3 es un notebook de Jupyter que se guarda como contenido en una Lake de Dataplex. Puedes guardar un notebook como contenido un lake y compartirlo con otras principales programarlo para que se ejecute como Trabajo por lotes de Spark sin servidores de Dataproc en Dataplex.

Para los datos en BigQuery, puedes acceder a BigQuery tablas directamente a través de Spark sin usar el comando mágico %%bigquery.

Antes de comenzar

Antes de comenzar, vincula tu lake a Dataproc Metastore y otorga roles necesarios.

Vincula tu lake a Dataproc Metastore (DPMS)

Para usar Explorar, haz lo siguiente:

Aprende a configurar Dataproc Metastore con Dataplex para acceder a los metadatos en Spark

Roles obligatorios

Según las acciones que planees realizar, necesitarás todos los siguientes elementos de IAM para los puestos de profesionales de datos en la nube. Todos los entornos de un lake heredan los permisos otorgados a nivel del lake.

Roles de IAM de Dataplex:

  • Visualizador de Dataplex
  • Desarrollador de Dataplex
  • Lector de metadatos de Dataplex
  • Lector de datos de Dataplex

Roles adicionales:

Logging

Para comprender el uso de Explorar, consulta los siguientes documentos:

Limitaciones conocidas

En esta sección, se describen las limitaciones conocidas de Explorar.

  • Explorar está disponible para lakes en las siguientes regiones:

    • asia-northeast1
    • asia-southeast1
    • europe-west1
    • europe-west2
    • us-central1
    • us-east1
    • us-west1
  • Puedes usar hasta 10 entornos por región en un proyecto. Información para aumentar el límite de cuota, consulta Trabaja con cuotas.

  • Puedes crear entornos con un máximo de 150 nodos. La duración de la sesión de las sesiones de usuario individuales está restringida a 10 horas.

  • Las secuencias de comandos de Spark SQL solo pueden consultar datos dentro de un lake determinado. Si deseas consultar datos en un lake diferente, debes cambiar a ese lake y seleccionar dentro de ese lake.

  • Después de recuperar un proyecto, Dataplex no restablece el contenido como secuencias de comandos de SQL o notebooks. Procede con cuidado cuando borrar un proyecto con Explorar los recursos de contenido.

  • Si el entorno tiene paquetes personalizados al programar un notebook, puede programar el notebook solo con gcloud CLI. Para ver más consulta Programa notebooks con paquetes personalizados.

  • Si borras un entorno antes de borrar las secuencias de comandos y los notebooks, no puede acceder a la página Explorar. Por lo tanto, asegúrate de borrar y notebooks antes de borrar un entorno en Explorar.

  • Las sesiones de exploración no son compatibles con los sistemas de archivos distribuidos de Hadoop (HDFS). No almacenes datos del usuario en una sesión de Explorar porque se borran cuando finaliza la sesión.

  • El límite de tamaño máximo para un notebook o una secuencia de comandos de SQL es de 1 MB.

Crear un entorno

  1. En la consola de Google Cloud, ve a Dataplex Administrar lakes.

    Ir a Dataplex

  2. Selecciona un lake de Dataplex para el que quieras crear un en un entorno de nube.

  3. Haz clic en la pestaña Environments (Entornos).

  4. Haz clic en Crear entorno.

  5. En el campo Nombre visible, ingresa un nombre para tu entorno.

  6. En el ID del entorno, ingresa un ID único.

  7. Ingresa una descripción para el entorno nuevo (opcional).

  8. En el panel Configurar procesamiento, especifica lo siguiente:

    1. Cantidad de nodos: Es la cantidad de nodos que se aprovisionarán. para las sesiones de usuario creadas para este entorno.
    2. Cantidad máxima de nodos: Es la cantidad máxima de nodos que Dataplex puede ajustar la escala automáticamente en las sesiones de usuario asociadas en este entorno.
    3. Tamaño del disco principal: Es la cantidad de tamaño del disco asociado a cada uno. aprovisionado a un nodo.
    4. Tiempo de cierre automático: El tiempo de inactividad después del cual Dataplex cierra automáticamente las sesiones de usuario asociadas con esta en un entorno de nube. Puedes establecer un mínimo de 10 minutos y un máximo de 60 minutos.
  9. En el panel Paquetes de software (opcional), puedes especificar las secciones Paquetes de Python, archivos JAR y propiedades de Spark para instalar en las sesiones de usuario aprovisionados para este entorno.

    Cuando creas un entorno y proporcionas la ruta de Cloud Storage para JAR de Java o paquetes de Python para que Dataplex instale los archivos JAR o paquetes, asegúrate de que la instancia de Cloud Dataplex El agente de servicio tiene los permisos necesarios para acceder a Cloud Storage archivos.

  10. Haz clic en Crear.

Notas

  • Un nodo se asigna a 4 unidades de procesamiento de datos (DCU), que es comparable a 4 CPU virtuales y 16 GB de RAM

  • Puedes crear un entorno con un nodo, o con tres nodos o más.

  • Si eres administrador del lake, puedes configurar entornos y permitir que los usuarios ejecuten sus cargas de trabajo con parámetros de configuración ya especificados.

  • Aunque los entornos pueden compartirse con varios usuarios, Dataplex crea una sesión separada por usuario usando el entorno configuración.

Crea un entorno predeterminado

Consulta los requisitos de configuración para un entorno predeterminado.

Console

  1. Abre Dataplex en la consola de Google Cloud.

    Ir a Dataplex

  2. Navega a la vista Administrar.

  3. Selecciona un lake de Dataplex.

  4. Haz clic en la pestaña Environments (Entornos).

  5. Haz clic en Crear entorno predeterminado.

gcloud

Para crear un entorno predeterminado con el inicio rápido habilitado, ejecuta el siguiente comando: :

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Explora datos con Spark SQL Workbench

Para explorar datos de BigQuery y Cloud Storage, usa Spark SQL secuencias de comandos.

Crea y guarda una secuencia de comandos

  1. En la consola de Google Cloud, ve a Explorar de Dataplex. .

  2. En la vista Explorar, selecciona el lake que contiene los recursos de datos que deseas. para explorar.

  3. En el navegador de recursos, expande el lake. Muestra lo siguiente carpetas:

    • Datos: Contienen todas las bases de datos y tablas de la instancia de DPMS. conectadas a tu lago, incluidas las tablas lacustres Hudi, Iceberg y Delta.
    • Notebooks: Contiene todos los notebooks creados en el lake seleccionado.
    • Secuencias de comandos de Spark SQL: Contiene todas las secuencias de comandos de Spark SQL creadas en el lake seleccionado.
  4. Expande Datos y selecciona la base de datos y la tabla requeridas.

  5. Para usar una consulta de muestra, haz clic en CONSULTA. El espacio de trabajo de Spark SQL propaga automáticamente una pestaña nueva con una consulta de muestra.

  6. Para crear una secuencia de comandos nueva, en el Editor de Spark SQL, haz clic en Nueva secuencia de comandos. e ingresar tus consultas.

  7. Para guardar la secuencia de comandos, selecciona Guardar > Guardar secuencia de comandos.

Ejecuta una secuencia de comandos

  1. En el Editor de Spark SQL, haz clic en la pestaña con la consulta que deseas ejecutar.

  2. Haz clic en Seleccionar entorno. Selecciona el entorno en el que deseas para ejecutar la consulta. Si no seleccionas un entorno, Dataplex usa el entorno predeterminado para crear una sesión por usuario.

    Puedes ejecutar varias consultas en Spark SQL en la misma secuencia de comandos separando los consultas con punto y coma.

  3. Haz clic en Ejecutar.

  4. Ver los resultados del historial de consultas de cada una de las consultas de la secuencia de comandos mediante la lista desplegable.

Cómo programar una secuencia de comandos

Puedes programar una secuencia de comandos para que se ejecute como una tarea de Dataplex. Si deseas obtener más información, consulta Crea y administra programas para secuencias de comandos de SQL.

Comparte un guion

Puedes compartir una secuencia de comandos con otras personas de la organización mediante los permisos de IAM:

  1. En la vista Explorar, haz clic en la secuencia de comandos de Spark SQL que deseas compartir.

  2. En el menú Más, haz clic en Compartir.

  3. Revisa los permisos. Agregar o quitar visualizador, editor y administrador permisos para la secuencia de comandos compartida.

Después de compartir una secuencia de comandos, los usuarios con permisos de lectura o edición a nivel del lake puede navegar al lake y trabajar en la secuencia de comandos compartida.

Explorar datos de BigQuery y Cloud Storage con Spark SQL

Para cualquier conjunto de datos de BigQuery que se agrega como recurso a una zona, Dataplex permite el acceso directo a Spark SQL en todas las tablas de esa de tu conjunto de datos. Puedes consultar datos en Dataplex con secuencias de comandos de Spark SQL o o notebooks. Por ejemplo:

 select * from ZONE_ID.TABLE_ID

Si tus recursos se asignan a buckets de Cloud Storage en la misma zona, Dataplex ofrece una lista unificada de tablas con Spark.

Explora datos con notebooks

En esta sección, se describe cómo crear, programar, compartir, importar y exportar o notebooks.

Crea y guarda un notebook

  1. En la consola de Google Cloud, ve a Explorar de Dataplex. .

  2. En la vista Explorar, selecciona un lake.

  3. Expande el lake y haz clic en la carpeta Notebooks.

  4. Haz clic en Nuevo notebook.

  5. En el campo Ruta del notebook, proporciona el nombre del notebook.

  6. Opcional: En el campo Descripción, proporciona una descripción para el nuevo objeto notebook.

  7. Opcional: Agrega etiquetas.

  8. Haz clic en Crear notebook. Se creó un notebook.

  9. Para abrir el notebook creado, haz clic en Abrir notebook.

  10. Selecciona un entorno en el que quieras que Dataplex cree de usuario, cuando crees o abras tu notebook. Asegúrate de seleccionar un entorno con paquetes de confianza.

    Si no seleccionas un entorno, Dataplex usa en un entorno de nube. Si no tienes un entorno, crea uno. Para ver más consulta Crea un entorno.

    Ahora puedes explorar tus datos escribiendo código de Python y guardando el notebook exploración posterior. Más adelante, puedes obtener una vista previa del notebook creado y examinar su sin crear una sesión ni ejecutar el código.

Programa un notebook

Puedes programar un notebook para que se ejecute como una tarea de Dataplex. Si deseas obtener más información, consulta Crea y administra programas para notebooks.

Comparte un notebook

Puedes compartir un notebook con otras personas de la organización mediante los permisos de IAM:

  1. En la vista Explorar, haz clic en la carpeta Notebooks.

  2. Selecciona el notebook de Jupyter que quieres compartir.

  3. Haz clic en Compartir

  4. Revisa los permisos. Agregar o quitar visualizador, editor y administrador permisos para este notebook.

    Después de compartir un notebook, los usuarios con permisos para ver o editar en el lake puede navegar al lake y trabajar en el notebook compartido.

Importa un notebook

Puedes importar un notebook desde un bucket de Cloud Storage:

  1. En la vista Explorar, haz clic en la carpeta Notebooks.

  2. Haga clic en Import.

  3. Navega al bucket de Cloud Storage que contiene el notebook que que quieres importar.

  4. Selecciona el notebook, proporciona un nombre y haz clic en Import.

    El notebook importado se crea en la carpeta Notebooks. Puedes abrir, editar, compartir y programar el notebook importado.

Exporta un notebook

Puedes exportar un notebook a un bucket de Cloud Storage para que se pueda que usan otras personas de la organización con permisos de IAM.

  1. En la vista Explorar, haz clic en la carpeta Notebooks.

  2. Marca el notebook que quieres exportar.

  3. Haz clic en el menú y, luego, en Exportar.

  4. Ingresa la ruta de acceso de Cloud Storage a la que quieres exportar el notebook.

  5. Haz clic en Exportar notebook.

¿Qué sigue?