Metadatos de Dataplex

En esta guía, se describen los metadatos de Dataplex y cómo puedes y usarás APIs de Dataplex para administrarlos.

Descripción general

Dataplex analiza lo siguiente:

  • Recursos de datos estructurados y semiestructurados dentro de data lakes para extraer metadatos de tablas a entidades de tablas
  • Datos no estructurados, como imágenes y textos, para extraer metadatos del conjunto de archivos en entidades de conjunto de archivos

Puedes usar la API de metadatos de Dataplex para realizar cualquiera de las siguientes acciones:

  • Visualiza, edita y borra metadatos de entidades de tablas y conjuntos de archivos
  • Crea tus propios metadatos de entidad de tabla o conjunto de archivos

También puedes analizar metadatos de Dataplex a través de cualquiera de las siguientes opciones:

  • Data Catalog para buscar y etiquetar
  • Dataproc Metastore y BigQuery para tablas consulta de metadatos y procesamiento de estadísticas

APIs de Dataplex

En esta sección, se resumen las APIs de Dataplex y los recursos clave con ellos.

API del plano de control

La API del plano de control de Dataplex permite crear y administración del lake, la zona y los recursos de recursos.

  • Lago: Una instancia de servicio de Dataplex que permite administrar recursos de almacenamiento en proyectos dentro de una organización.

  • Zona: Es una agrupación lógica de recursos dentro de un lake. Usa varias zonas dentro de un lake para organizar los datos según la preparación, la carga de trabajo o la estructura organizativa.

  • Recursos: Los recursos de almacenamiento, con datos almacenados en buckets de Cloud Storage o Conjuntos de datos de BigQuery, que están vinculados a una zona dentro de un lake.

API de Metadata

Usa la API de Dataplex Metadata para crear y administrar metadatos en para las entidades y particiones de tablas y conjuntos de archivos. Dataplex analiza datos recursos, ya sea en un lake o proporcionados por ti, para crear entidades y particiones. Las entidades y particiones mantienen referencias a recursos y ubicaciones de almacenamiento físico.

Conceptos clave

Entidad de la tabla:

Metadatos para datos estructurados con esquemas bien definidos. Las entidades de la tabla son identificado de manera inequívoca por ID de entidad y ubicación de los datos. Los metadatos de la entidad de la tabla son consultables en BigQuery y Dataproc Metastore:

  • Objetos de Cloud Storage: Son metadatos para los objetos de Cloud Storage. y se accede a ellas a través de las APIs de Cloud Storage.
  • Tablas de BigQuery: Metadatos para BigQuery a las que se accede a través de las APIs de BigQuery.
Entidad de conjunto de archivos:

Metadatos sobre datos no estructurados, por lo general, sin esquemas. Los conjuntos de archivos son identificado de manera inequívoca por ID de entidad y ubicación de los datos. Cada conjunto de archivos tiene un el formato de los datos.

Particiones:

Metadatos para un subconjunto de datos dentro de una tabla o entidad de conjunto de archivos, identificados con un conjunto de pares clave-valor y una ubicación de datos.

Prueba la API

Usa Dataplex lakes.zones.entities y lakes.zones.partitions las páginas de documentación de referencia de la API para ver los parámetros y los campos asociados con cada API. Usa el panel Probar esta API que acompaña la documentación de referencia. para cada método de API para realizar solicitudes a la API con diferentes parámetros y campos. Puedes crear, ver y enviar tus solicitudes sin necesidad de generar credenciales y, luego, ver las respuestas que muestra el servicio.

Las siguientes secciones proporcionan información para ayudarlo a comprender y usar las APIs de metadatos de Dataplex.

Entidades

Enumerar entidades

Para limitar la lista de entidades que muestra el servicio, agrega filtro parámetros de consulta a la URL de solicitud list entities.

Obtener entidad

De forma predeterminada, la respuesta Get Entity contiene entidades básicas metadatos. Para recuperar metadatos de esquema adicionales, agrega ver consulta a la URL de la solicitud.

Detalles de compatibilidad: Aunque los metadatos de Dataplex se registra de forma centralizada en la API de metadatos, solo los metadatos de la tabla de entidad que con BigQuery y Apache Hive Metastore se publica en BigQuery y Dataproc Metastore. La API de Get Entity muestra un CompatibilityStatus, que indica si los metadatos de la tabla son compatibles con BigQuery y Hive Metastore y, de no ser así, el motivo de la incompatibilidad.

Actualizar entidad

Usa esta API para editar metadatos de entidades, incluso si tú o Dataplex administrará los metadatos de la entidad.

  • Esta API reemplaza por completo todas las funciones mutable Entity. Los siguientes campos de entidad son inmutables y, si los especificas en una actualización, solicitud, se ignorarán:
  • Especifica un valor para todos los campos de entidad mutables, incluidos todos schema, incluso si los valores no cambian.
  • Proporciona el etag . Puedes obtener la ETag enviando primero un entities.get, que devuelve el etag de la entidad en la respuesta.
  • Actualiza los campos de esquema: puedes actualizar el esquema de tabla que detecta el Dataplex para mejorar su precisión:
    • Si el esquema es un conjunto de archivos, deja todo campos de esquema vacíos.
    • Para definir un campo repetido, configura la modo a REPEATED. Para definir un campo struct, establece la tipo a RECORD.
    • Puedes configurar userManaged campo del esquema para especificar si tú o Dataplex administra los metadatos de la tabla. La configuración predeterminada es Dataplex administrada. Si estableces userManaged como verdadero, se aplicará esta configuración se incluye en la información que muestra una entities.get request if EntityView se estableció en SCHEMA o FULL.
  • Actualiza los campos de partición:
    • Para los datos particionados sin estilo Hive, el descubrimiento de Dataplex automáticamente las claves de partición. Por ejemplo, para la ruta de acceso a los datos, gs://root/2020/12/31, claves de partición p0, p1 y p2 son de red. Para que las consultas sean más intuitivas, puedes actualizar p0, p1 y p2 para year, month y day respectivamente.
    • Si actualizas el estilo de partición Estilo HIVE, el campo de partición es inmutable.
  • Actualiza otros campos de metadatos: Puedes actualizar los campos mimeType, CompressionFormat, CsvOptions y JsonOptions campos para ayudar al descubrimiento de Dataplex. Dataplex el descubrimiento usará valores nuevos en su próxima ejecución.

Crear entidad

Usa la API de entities.create para crear entidades de metadatos de tablas o conjuntos de archivos. Completa los campos opcionales obligatorios y relevantes o deja que Dataplex y el servicio de detección completan los campos opcionales.

Borrar entidad

  • Proporciona el etag . Puedes obtener la ETag enviando primero un entities.get, que devuelve el etag de la entidad en la respuesta.

Si se borran los datos subyacentes de una tabla o conjunto de archivos en una zona sin procesar, la tabla o los metadatos del conjunto de archivos se eliminan automáticamente en la siguiente Análisis de descubrimiento. Si los datos subyacentes de una tabla en una zona seleccionada los metadatos de la tabla no se eliminan de forma correspondiente, sino cuando se informa una acción de datos. Para resolver el problema, borra la tabla de forma explícita de metadatos con la API de metadatos.

Particiones

Mostrar lista de particiones

Para limitar la lista de particiones que muestra el servicio, agrega filtro parámetros de consulta a la URL de solicitud list partitions.

Ejemplos:

  • ?filter="Country=US AND State=CA AND City=Sunnyvale"
  • ?filter="year < 2000 AND month > 12 AND Date > 10"

Obtener partición

Para obtener una partición, debes completar la URL de solicitud agregando el valores de clave de partición al final de la URL, con el formato de partitions/value1/value2/…./value10

Ejemplo: Si una partición tiene valores, {Country=US, State=CA, City=Sunnyvale}, la URL de solicitud de obtención debe terminar en /partitions/US/CA/Sunnyvale.

Importante: Los valores de URL agregados deben tener el con codificación doble. Por ejemplo, url_encode(url_encode(value)) puede usarse para codificar "US:CA/CA#Sunnyvale" para que la URL de solicitud finalice con /partitions/US%253ACA/CA%2523Sunnyvale. El campo de nombre de la respuesta conserva el formato codificado.

Crear una partición

Para crear una partición personalizada para tu fuente de datos, usa el API de partitions.create. Especifica los ubicación con una ruta de Cloud Storage.

Borrar partición

Agrega valores de clave de partición al final de la URL de solicitud la URL de la solicitud, con el formato partitions/value1/value2/…./value10.

Ejemplo: Si una partición tiene valores, {Country=US, State=CA, City=Sunnyvale}, la URL de la solicitud debe terminar con /partitions/US/CA/Sunnyvale.

Importante: Los valores de URL agregados deben cumplir con lo siguiente: RFC-1034 o deben tener codificación doble, por ejemplo, US:/CA#/Sunnyvale como US%3A/CA%3A/Sunnyvale.

Próximos pasos