Descripción general de Dataplex Catalog

En este documento, se describe Dataplex Catalog, que proporciona una plataforma para almacenar, administrar y acceder a tus metadatos.

Dataplex Catalog proporciona un inventario unificado de recursos de Google Cloud, como BigQuery, y otros recursos, como los recursos locales. Se recolectan los metadatos de los recursos de Google Cloud automáticamente, y llevar metadatos de recursos de terceros a Catálogo de Dataplex.

Dataplex Catalog te permite enriquecer tu inventario con metadatos técnicos y empresariales adicionales para capturar el contexto y el conocimiento sobre tus recursos. Con Dataplex Catalog, puedes buscar y descubrir tus datos en toda la organización, y habilitar la gobernanza de datos sobre tus recursos de datos.

Casos de uso

Puedes usar Dataplex Catalog para hacer lo siguiente:

  • Descubre y comprende tus datos. Dataplex Catalog proporciona visibilidad sobre tus recursos de datos en toda la organización. Te permite encontrar recursos relevantes para las necesidades de consumo de datos. Proporciona contexto para los recursos de datos, lo que te ayuda a comprender la idoneidad de los recursos de datos para las necesidades de tu consumidor de datos.

  • Habilita la administración y la administración de datos. Catálogo de Dataplex Proporciona metadatos que pueden fundamentar y potenciar tu administración de datos y de administración de identidades y accesos.

  • Mantén un repositorio integral y extensible para tus metadatos. Dataplex Catalog almacena y proporciona acceso a metadatos que se recopila automáticamente de tus recursos de Google Cloud. Puedes integrar tus propios metadatos de sistemas que no son de Google Cloud. Puedes enriquecer todos los metadatos con anotaciones de metadatos técnicos y empresariales adicionales.

Cómo funciona Dataplex Catalog

Dataplex Catalog se basa en los siguientes conceptos:

  • Entrada: Una entrada representa un recurso de datos. La mayoría de los metadatos se describen con aspectos dentro de una entrada. Esto es similar a en Data Catalog. Para obtener más información, consulta Entradas.

  • Aspecto: Un aspecto es un conjunto de campos de metadatos relacionados dentro de una entrada. Un aspecto se puede interpretar como un elemento básico de una entrada o como metadatos adicionales a ella. Esto es similar a las etiquetas en Data Catalog, sin embargo, los aspectos se almacenan dentro de las entradas y no como recursos independientes. Para obtener más información, consulta Aspectos.

  • Tipo de aspecto: Un tipo de aspecto es una plantilla reutilizable de aspectos. Cada aspecto es una instancia de un tipo de aspecto. Esto es similar a las plantillas de etiquetas en Data Catalog. Para obtener más información, consulta Tipos de aspecto.

  • Grupo de entradas: Es un contenedor de entradas que funciona como unidad de administración para estas entradas. Por ejemplo, usa un grupo de entrada para configurar el control de acceso de IAM, la atribución de proyectos o la ubicación para el entradas del grupo de entradas. Esto es similar a grupos de entrada en Data Catalog. Para obtener más información, consulta Grupos de entrada.

  • Tipo de entrada: Un tipo de entrada es una plantilla para crear entradas. Integra establece los elementos esenciales de metadatos, descritos como una lista de y los aspectos obligatorios para las entradas de este tipo. Para obtener más información, consulta Tipos de entrada.

    Entradas y grupos de entrada
    Figura 1. Entradas y grupos de entradas
    Tipos de aspecto y tipos de entrada
    Figura 2: Tipos de aspectos y tipos de entrada

Estos son algunos de los casos de uso de Dataplex Catalog:

  • Como analista de datos o analista empresarial, puedes buscar entradas en toda la organización y explorar los metadatos asociados con ellas. Para obtener más información, consulta Cómo buscar recursos de datos.
  • Como propietario de los datos o regulador de datos, puedes capturar metadatos técnicos y empresariales adicionales anotando tus entradas con aspectos. Para obtener más información, consulta Administra aspectos y enriquece los metadatos.
  • Como propietario o regulador de datos, puedes definir los estándares de anotación (con tipos de aspectos) y entradas personalizadas (con tipos de entradas) para lograr coherencia en tus metadatos. Para obtener más información, consulta Administra aspectos y enriquece metadatos.
  • Como ingeniero de datos, puedes tener un inventario unificado de tus recursos, incluidos los recursos de Google Cloud y los de sistemas de terceros. Dataplex Catalog recopila automáticamente los recursos de Google Cloud, y tú recopilas los recursos que no son de Google Cloud. Para obtener más información, consulta Administrar entradas y transferir fuentes personalizadas

Si ya usas Data Catalog, ten en cuenta lo siguiente:

  • Las entradas personalizadas, el contexto general y los grupos de entradas que creaste en Data Catalog estarán disponibles en Dataplex Catalog.
  • Las etiquetas y plantillas de etiquetas creadas en Data Catalog no están disponibles en Dataplex Catalog.
  • Cuando buscas recursos de datos en Dataplex Catalog, tanto metadatos creados directamente en Dataplex Catalog los metadatos que se incorporaron de Data Catalog Dataplex Catalog están incluidos.
  • Cuando buscas recursos de datos en Data Catalog, solo los incluidos los metadatos que se crearon en Data Catalog.
  • Las descripciones de los grupos de entradas en Data Catalog que superan los 1,024 caracteres se truncan a 1024 caracteres en Catálogo de Dataplex.

Dataplex Catalog frente a Data Catalog

Dataplex Catalog proporciona una capacidad para administrar tus los metadatos en Dataplex. Incluye un almacenamiento de metadatos independiente y un un nuevo conjunto de métodos de API integrados en la API de Dataplex.

Entre las funciones principales de Dataplex Catalog, se incluyen las siguientes:

  • Metamodelo más sólido

    • Entradas escritas Puedes aplicar estándares mínimos de metadatos definiendo el contenido de metadatos requerido para las entradas personalizadas.
    • Metamodel configurable por el usuario para entradas personalizadas, lo que ayuda a crear entradas la transferencia de datos es más sólida y mejora la coherencia de los metadatos personalizados y exhaustividad.
    • Compatibilidad con una mayor variedad y complejidad de metadatos, incluida la asistencia para anidar estructuras como listas, mapas y arrays.
  • Escalabilidad mejorada, incluida la capacidad de interactuar con todos los metadatos asociados con una entrada a través de operaciones CRUD atómicas únicas y la capacidad de recuperar varias anotaciones de metadatos asociadas en respuestas de búsqueda o de lista.

En la siguiente tabla, se comparan las funciones de Dataplex Catalog y Data Catalog:

Comparación entre Dataplex Catalog y Data Catalog
Atributo Dataplex Catalog Data Catalog
Fuentes de Google Cloud compatibles Todas las fuentes como se describe en la sección Fuentes compatibles de Google Cloud de este documento Todas las fuentes descritas en Entradas y grupos de entradas.
Transferencia de fuentes personalizadas

Transferencia a entradas personalizadas con estructura regulada, definida por tipos de entrada

Las entradas personalizadas y los grupos de entradas de Data Catalog están disponibles en Dataplex Catalog en el tipo de entrada generic.

Transferencia a entradas personalizadas genéricas.
Enriquecimiento de metadatos El contexto de metadatos de las entradas se captura a través de aspectos y tipos de aspecto. El contexto de metadatos de las entradas se captura con etiquetas y plantillas de etiquetas.
Buscar La búsqueda se realiza en los siguientes campos:
  • Todas las fuentes de Google Cloud que se describen en Fuentes de Google Cloud admitidas
  • Entradas personalizadas que se crean en Dataplex Catalog
  • Aspectos que se crean en Dataplex Catalog
  • Entradas personalizadas que se crean en Data Catalog y se incorporan a Dataplex Catalog

Los resultados de la búsqueda incluyen solo aquellos recursos que pertenecen al mismo Perímetro de VPC-SC como el proyecto en el que se realiza la búsqueda. Cuando usas la consola de Google Cloud, este es el proyecto que se selecciona en la consola.

Ten en cuenta que, para buscar entradas, necesitas tener al menos uno de los roles de IAM de Dataplex Catalog en el proyecto que se usa en la búsqueda. Los permisos en los resultados de la búsqueda son verificarse independientemente del proyecto seleccionado.

La búsqueda se realiza en los siguientes campos:
  • Todas las fuentes de Google Cloud que se describen en Entradas y grupos de entradas
  • Entradas personalizadas que se crean en Data Catalog
  • Etiquetas que se crean en Data Catalog

En la siguiente tabla, se describe cómo los recursos de Dataplex Catalog corresponden a los recursos de Data Catalog:

Asignación entre Dataplex Catalog y Data Catalog recursos
Recurso de Dataplex Catalog Recurso de Data Catalog Descripción
Tipo de aspecto (global) Plantilla de etiqueta pública Las plantillas de etiquetas son recursos regionales. Sin embargo, puedes usarlos para crear etiquetas en las regiones. Las plantillas de etiquetas corresponden a los tipos de aspectos global en Dataplex Catalog.
Aspecto opcional Etiqueta pública Las etiquetas públicas en Data Catalog corresponden a aspectos opcionales en Dataplex Catalog.
Grupo de entradas Grupo de entradas Para las fuentes de Google Cloud, los grupos de entrada del sistema, como @bigquery se establecen por proyecto en Dataplex Catalog.
Aspectos obligatorios de la entrada personalizada Entrada personalizada

Distribución de Data Catalog y Dataplex Catalog conceptos similares para las entradas personalizadas.

Las propiedades de entrada estándar se modelan como aspectos obligatorios en Catálogo de Dataplex.

Aspectos obligatorios de la entrada del sistema Entrada del sistema (Google Cloud) Los metadatos que describen entidades integradas, como Schema para las tablas de BigQuery, se capturan en los aspectos obligatorios de los tipos de aspectos definidos por el sistema.

Para obtener más información sobre las funciones que están disponibles en Data Catalog y no son compatibles con Dataplex Catalog, consulta la sección Funciones que no son compatibles con Dataplex Catalog en este documento.

Fuentes admitidas

Los metadatos de las siguientes fuentes de Google Cloud se transfieren automáticamente en Dataplex Catalog:

  • Intercambios y fichas de Analytics Hub
  • Conjuntos de datos, tablas, modelos, rutinas, conexiones y conjuntos de datos vinculados de BigQuery
  • las instancias, los clústeres y las tablas de Bigtable detalles de la familia)
  • Instancias, bases de datos, esquemas, tablas y vistas de Cloud SQL: consulta Habilita la integración de Cloud SQL.
  • Servicios, base de datos y tablas de Dataproc Metastore
  • Temas de Pub/Sub
  • Instancias, bases de datos, tablas y vistas de Spanner
  • Modelos, conjuntos de datos, grupos de atributos, vistas de atributos e instancias de tiendas en línea de Vertex AI

Para importar metadatos de una fuente externa a Dataplex Catalog, puedes usar un canalización de conectividad administrada.

Restricciones de proyectos y ubicaciones

Los recursos de Dataplex Catalog se alojan en varios proyectos. y ubicaciones. Se aplica la siguiente limitación:

  • Ubicación:

    • La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada o el tipo de entrada debe ser global.
    • Un aspecto agregado a una entrada debe basarse en un tipo de aspecto que se almacene en la misma ubicación que la entrada, o bien el tipo de aspecto debe ser global.
    • Un tipo de entrada debe estar compuesto por tipos de aspectos que se almacenan en la misma ubicación que el tipo de entrada.
  • Proyecto:

    • Si un tipo de entrada hace referencia a tipos de aspectos personalizados, estos deben estar en la misma ubicación y el mismo proyecto que el tipo de entrada.

Funciones que no son compatibles con Dataplex Catalog

Las siguientes funciones que están disponibles en Data Catalog no son compatibles con Dataplex Catalog:

  • La noción de aspectos privados y tipos de aspectos no se admite en Dataplex Catalog. El acceso a los aspectos se rige por permisos asociados con la entrada que contiene los aspectos. Para obtener más información, consulta Roles de IAM de Dataplex.
  • La búsqueda de etiquetas de políticas no es compatible con la búsqueda de Dataplex Catalog. Por lo tanto, los predicados policytag y policytagid no funcionan en la búsqueda de Dataplex Catalog.
  • Para las entradas personalizadas de Data Catalog que se trasladan Dataplex Catalog, los permisos de IAM existentes para tu los metadatos actuales no se propagan automáticamente a los metadatos copiados. Debes configurar de forma explícita los permisos de IAM para los metadatos copiados antes de usarlos.
  • Se están enviando los resultados del trabajo de Sensitive Data Protection a No se admite Dataplex Catalog.
  • No puedes enumerar los tipos de entrada y los tipos de aspecto en todos los proyectos con la API. Puedes limitar la solicitud de lista solo a un proyecto.
  • No puedes adjuntar términos del glosario empresarial a las columnas de las entradas de Dataplex.
  • No puedes modificar la lista de los tipos de aspecto obligatorios en un tipo de entrada después de creas el tipo de entrada.
  • Para las entradas que se crearon directamente en Dataplex Catalog, El linaje de datos muestra eventos de linaje en la consola de Google Cloud pero no muestra información detallada sobre la fuente, el destino o el proceso. Además, el linaje de datos no muestra aspectos de ninguna entrada en la consola de Google Cloud.

Precios

Dataplex usa el SKU de almacenamiento de metadatos para cobrar por el almacenamiento de metadatos. Para obtener más información, consulta Precios de Dataplex.

No se aplican cargos por usar los siguientes servicios:

  • Cómo crear y administrar recursos de Dataplex Catalog
  • Buscar llamadas a la API de Dataplex Catalog
  • Las búsquedas realizadas en la página de Dataplex Catalog en Consola de Google Cloud

¿Qué sigue?