Descripción general de Dataplex Catalog

En este documento, se describe Dataplex Catalog, que proporciona una plataforma para almacenar, administrar y acceder a tus metadatos.

Dataplex Catalog proporciona un inventario unificado de recursos de Google Cloud, como BigQuery, y otros recursos, como los recursos locales. Los metadatos de los recursos de Google Cloud se recopilan automáticamente, y puedes incorporar los metadatos de los recursos de terceros en el catálogo de Dataplex.

Dataplex Catalog te permite enriquecer tu inventario con recursos metadatos técnicos y empresariales para capturar el contexto y el conocimiento sobre tu de Google Cloud. Con Dataplex Catalog, puedes buscar y descubrir tus datos en toda la organización, y habilitar la gobernanza de datos sobre tus recursos de datos.

Casos de uso

Puedes usar Dataplex Catalog para hacer lo siguiente:

  • Descubre y comprende tus datos. Dataplex Catalog proporciona visibilidad sobre tus recursos de datos en toda la organización. Te permite a encontrar recursos relevantes para las necesidades de consumo de datos. Proporciona contexto para los recursos de datos, lo que te ayuda a comprender la idoneidad de los recursos de datos para las necesidades de tu consumidor de datos.

  • Habilita la administración y la gobernanza de datos. Catálogo de Dataplex Proporciona metadatos que pueden fundamentar y potenciar tu administración de datos y de administración de identidades y accesos.

  • Mantén un repositorio extensible y completo para tus metadatos. Dataplex Catalog almacena y proporciona acceso a los metadatos que se recopilan automáticamente de tus recursos de Google Cloud. Puedes integrar tus propios metadatos de sistemas que no son de Google Cloud. Puedes enriquecer todo metadatos con anotaciones adicionales de metadatos empresariales y técnicos.

Cómo funciona Dataplex Catalog

Dataplex Catalog se basa en los siguientes conceptos:

  • Entrada: Una entrada representa un recurso de datos. La mayoría de los metadatos se describen por aspectos dentro de una entrada. Esto es similar a las entradas en Data Catalog. Para obtener más información, consulta Entradas.

  • Aspecto: Un aspecto es un conjunto de campos de metadatos relacionados dentro de una entrada. Un aspecto se puede interpretar como un elemento básico de una entrada o como metadatos adicionales a ella. Esto es similar a en Data Catalog, Sin embargo, los aspectos se almacenan en entradas y no como recursos independientes. Para obtener más información, consulta Aspectos.

  • Tipo de aspecto: Un tipo de aspecto es una plantilla reutilizable para aspectos. Cada aspecto es una instancia de un tipo de aspecto. Esto es similar a las plantillas de etiquetas en Data Catalog. Para obtener más información, consulta Tipos de aspectos.

  • Grupo de entradas: Es un contenedor de entradas que funciona como unidad de administración para estas entradas. Por ejemplo, usa un grupo de entrada para configurar el control de acceso de IAM, la atribución de proyectos o la ubicación para el entradas del grupo de entrada. Esto es similar a grupos de entrada en Data Catalog. Para obtener más información, consulta Grupos de entrada.

  • Tipo de entrada: Un tipo de entrada es una plantilla para crear entradas. Establece los elementos de metadatos esenciales, descritos como una lista de aspectos obligatorios para las entradas de este tipo. Para obtener más información, consulta Tipos de entrada.

    Entradas y grupos de entrada
    Figura 1. Entradas y grupos de entradas
    Tipos de aspecto y tipos de entrada
    Figura 2: Tipos de aspecto y tipos de entrada

Estos son algunos de los casos de uso de Dataplex Catalog:

  • Como analista de datos o de negocio, puedes buscar entradas en las organización y explorar los metadatos asociados a las entradas. Para obtener más información, consulta Cómo buscar recursos de datos.
  • Como propietario de los datos o regulador de datos, puedes capturar metadatos técnicos y empresariales adicionales anotando tus entradas con aspectos. Para obtener más información, consulta Administra aspectos y enriquece metadatos.
  • Como propietario o controlador de datos, puedes aportar coherencia a tu metadatos definiendo los estándares para la anotación (con tipos de aspecto) y entradas personalizadas (con tipos de entrada). Para obtener más información, consulta Administra aspectos y enriquece los metadatos.
  • Como ingeniero de datos, puede tener un inventario unificado de los recursos, incluidos recursos de Google Cloud y recursos de sistemas de terceros. Dataplex Catalog recopila automáticamente los recursos de Google Cloud, y tú recopilas los recursos que no son de Google Cloud. Para obtener más información, consulta Administra entradas y transfiere fuentes personalizadas.

Si ya usas Data Catalog, ten en cuenta lo siguiente:

  • Las entradas personalizadas, el contexto general y los grupos de entradas que creaste en Data Catalog estarán disponibles en Dataplex Catalog.
  • Las etiquetas y plantillas de etiquetas creadas en Data Catalog no están disponibles en Dataplex Catalog.
  • Cuando buscas recursos de datos en Dataplex Catalog, se incluyen los metadatos que se crearon directamente en Dataplex Catalog y los metadatos que se transfirieron de Data Catalog a Dataplex Catalog.
  • Cuando buscas recursos de datos en Data Catalog, solo se incluyen los metadatos que se crearon en Data Catalog.
  • Las descripciones de los grupos de entradas de Data Catalog que superan los 1,024 caracteres se truncan a 1,024 en Dataplex Catalog.

Dataplex Catalog frente a Data Catalog

Dataplex Catalog proporciona una capacidad para administrar tus los metadatos en Dataplex. Incluye un almacenamiento de metadatos independiente y un un nuevo conjunto de métodos de API integrados en la API de Dataplex.

Entre las funciones principales de Dataplex Catalog, se incluyen las siguientes:

  • Metamodelo más sólido

    • Entradas escritas Puedes aplicar estándares mínimos de metadatos definiendo contenido de metadatos obligatorio para entradas personalizadas
    • Metamodelo configurable por el usuario para entradas personalizadas, que ayuda a que la transferencia personalizada sea más sólida y mejora la coherencia y la exhaustividad de los metadatos personalizados.
    • Compatibilidad con una mayor variedad y complejidad de metadatos, incluida la asistencia para anidar estructuras como listas, mapas y arrays.
  • Escalabilidad mejorada, incluida la capacidad de interactuar con todos los metadatos que se asocia con una entrada mediante operaciones atómicas individuales de CRUD, y el capacidad para recuperar múltiples anotaciones de metadatos asociadas en búsqueda o en listas de respuestas ante incidentes.

En la siguiente tabla, se comparan las funciones de Dataplex Catalog y Data Catalog:

Comparación entre Dataplex Catalog y Data Catalog
Atributo Dataplex Catalog Data Catalog
Fuentes de Google Cloud compatibles Todas las fuentes, como se describe en el Fuentes de Google Cloud compatibles de este documento. Todas las fuentes descritas en Entradas y grupos de entradas.
Transferencia de fuentes personalizadas

Transferencia a entradas personalizadas con estructura regulada, definida por tipos de entrada

Las entradas personalizadas y los grupos de entradas de Data Catalog están disponibles en Dataplex Catalog en el tipo de entrada generic.

Transferencia a entradas personalizadas genéricas
Enriquecimiento de metadatos El contexto de metadatos de las entradas se captura con aspectos y tipos de aspectos. El contexto de metadatos de las entradas se captura con etiquetas y plantillas de etiquetas.
Buscar La búsqueda se realiza a través de lo siguiente:
  • Todas las fuentes de Google Cloud que se describen en Fuentes de Google Cloud admitidas
  • Entradas personalizadas que se crean en Dataplex Catalog
  • Aspectos que se crean en Dataplex Catalog
  • Entradas personalizadas que se crean en Data Catalog y se incorporan a Dataplex Catalog

Los resultados de la búsqueda solo incluyen los recursos que pertenecen al mismo perímetro de VPC-SC que el proyecto en el que se realiza la búsqueda. Cuando usas la consola de Google Cloud, este es el proyecto que se selecciona en la consola.

Ten en cuenta que, para buscar entradas, necesitas tener al menos uno de los roles de IAM de Dataplex Catalog en el proyecto que se usa en la búsqueda. Los permisos de los resultados de la búsqueda se verifican independientemente del proyecto seleccionado.

La búsqueda se realiza a través de lo siguiente:
  • Todas las fuentes de Google Cloud que se describen en Entradas y grupos de entradas
  • Entradas personalizadas que se crean en Data Catalog
  • Etiquetas que se crean en Data Catalog

En la siguiente tabla, se describe cómo los recursos de Dataplex Catalog corresponden a los recursos de Data Catalog:

Asignación entre Dataplex Catalog y Data Catalog recursos
Recurso de Dataplex Catalog Recurso de Data Catalog Descripción
Tipo de aspecto (global) Plantilla de etiqueta pública Las plantillas de etiquetas son recursos regionales. Sin embargo, puedes usarlos para crear etiquetas en las regiones. Las plantillas de etiquetas corresponden al aspecto global en Dataplex Catalog.
Aspecto opcional Etiqueta pública Las etiquetas públicas en Data Catalog corresponden a aspectos opcionales en Dataplex Catalog.
Grupo de entradas Grupo de entradas Para las fuentes de Google Cloud, los grupos de entrada del sistema, como @bigquery se establecen por proyecto en Dataplex Catalog.
Aspectos obligatorios de la entrada personalizada Entrada personalizada

Data Catalog y Dataplex Catalog comparten conceptos similares para las entradas personalizadas.

Las propiedades de entrada estándar se modelan como aspectos obligatorios en Catálogo de Dataplex.

Aspectos obligatorios de la entrada del sistema Entrada del sistema (Google Cloud) Los metadatos que describen entidades integradas, como Schema para las tablas de BigQuery, se capturan en los aspectos obligatorios de los tipos de aspectos definidos por el sistema.

Para obtener más información sobre las funciones que están disponibles en Data Catalog y no son compatibles con Dataplex Catalog, consulta la sección Funciones que no son compatibles con Dataplex Catalog de este documento.

Fuentes de Google Cloud compatibles

Los metadatos de las siguientes fuentes de Google Cloud se transfieren automáticamente en Dataplex Catalog:

  • Intercambios y fichas de Analytics Hub
  • conjuntos de datos, tablas, modelos, rutinas, conexiones y conjuntos de datos vinculados
  • las instancias, los clústeres y las tablas de Bigtable detalles de la familia)
  • Instancias, bases de datos, esquemas, tablas y vistas de Cloud SQL: consulta Habilita la integración de Cloud SQL.
  • Servicios, base de datos y tablas de Dataproc Metastore
  • Temas de Pub/Sub
  • Instancias, bases de datos, tablas y vistas de Spanner
  • Modelos, conjuntos de datos, grupos de atributos, instancias de tiendas en línea y vistas de atributos de Vertex AI

Restricciones de proyectos y ubicaciones

Los recursos de Dataplex Catalog se alojan en varios proyectos. y ubicaciones. Se aplica la siguiente limitación:

  • Ubicación:

    • La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada o el tipo de entrada debe ser global.
    • Los aspectos que se agregan a una entrada deben basarse en un tipo de aspecto que se almacene. en la misma ubicación que la entrada, o el tipo de aspecto debe ser global.
    • Un tipo de entrada debe estar compuesto por tipos de aspecto que se almacenen en la misma como el tipo de entrada.
  • Proyecto:

    • Si un tipo de entrada hace referencia a tipos de aspectos personalizados, estos deben estar en la misma ubicación y el mismo proyecto que el tipo de entrada.

Funciones que no son compatibles con Dataplex Catalog

Las siguientes funciones que están disponibles en Data Catalog no son compatibles con Dataplex Catalog:

  • La noción de aspectos privados y tipos de aspectos no se admite en Dataplex Catalog. El acceso a los aspectos está regido por los permisos asociados con la entrada que contiene los aspectos. Para obtener más información, consulta Roles de IAM de Dataplex.
  • La búsqueda de etiquetas de política no es compatible con Dataplex Catalog búsqueda; por lo tanto, los predicados policytag y policytagid no funcionan en la búsqueda de Dataplex Catalog.
  • En el caso de las entradas personalizadas de Data Catalog que se transfieren a Dataplex Catalog, los permisos de IAM existentes para tus metadatos actuales no se propagan automáticamente a los metadatos copiados. Debes configurar de forma explícita los permisos de IAM para los metadatos copiados antes de usarlos.
  • No se admite enviar resultados de trabajos de Sensitive Data Protection a Dataplex Catalog.
  • No puedes enumerar los tipos de entrada y los tipos de aspecto en todos los proyectos con la API. Puedes determinar el alcance de la solicitud de lista solo para un proyecto.
  • No puedes adjuntar el glosario empresarial. términos a las columnas de entradas de Dataplex.
  • No puedes modificar la lista de los tipos de aspecto obligatorios en un tipo de entrada después de creas el tipo de entrada.
  • Para las entradas que se crearon directamente en Dataplex Catalog, El linaje de datos muestra eventos de linaje en la consola de Google Cloud pero no muestra información detallada sobre la fuente, el destino o el proceso. Además, el linaje de datos no muestra aspectos para ninguna entrada en el Consola de Google Cloud

Precios

Dataplex usa el SKU de almacenamiento de metadatos para cobrar por el almacenamiento de metadatos. Para obtener más información, consulta Precios de Dataplex.

No se aplican cargos por usar los siguientes elementos:

  • Crea y administra recursos de Dataplex Catalog
  • Llamadas a la API de búsqueda para Dataplex Catalog
  • Las búsquedas realizadas en la página de Dataplex Catalog en Consola de Google Cloud

¿Qué sigue?