En este documento, se describe Dataplex Catalog, que proporciona una plataforma para almacenar, administrar y acceder a tus metadatos.
Dataplex Catalog proporciona un inventario unificado de Google Cloud recursos, como BigQuery, y otros recursos, como los recursos locales. Dataplex Catalog recupera automáticamente los metadatos de los recursos de Google Cloud , y puedes incorporar metadatos de recursos de terceros a Dataplex Catalog.
Dataplex Catalog te permite enriquecer tu inventario con metadatos técnicos y empresariales adicionales para capturar el contexto y el conocimiento sobre tus recursos. Con Dataplex Catalog, puedes buscar y descubrir tus datos en toda la organización, y habilitar la gobernanza de datos sobre tus recursos de datos.
Puedes establecer Dataplex Catalog como la experiencia de catálogo predeterminada. Si usas Data Catalog, realiza la transición de tu contenido y uso de Data Catalog a Dataplex Catalog. Para obtener más información, consulta Cómo migrar de Data Catalog a Dataplex Catalog.
Casos de uso
Puedes usar Dataplex Catalog para hacer lo siguiente:
Descubre y comprende tus datos. Dataplex Catalog proporciona visibilidad sobre tus recursos de datos en toda la organización. Te permite encontrar recursos relevantes para las necesidades de consumo de datos. Proporciona contexto para los recursos de datos, lo que te ayuda a comprender la idoneidad de los recursos de datos para las necesidades de tu consumidor de datos.
Habilita la administración y la gobernanza de datos. Dataplex Catalog proporciona metadatos que pueden informar y potenciar tus capacidades de administración y gobernanza de datos.
Mantén un repositorio extensible y completo para tus metadatos. Dataplex Catalog almacena y proporciona acceso a los metadatos que se recopilan automáticamente de tus Google Cloud recursos. Puedes integrar tus propios metadatos desde sistemas que no seanGoogle Cloud . Puedes enriquecer todos los metadatos con anotaciones de metadatos técnicos y empresariales adicionales.
Cómo funciona Dataplex Catalog
Dataplex Catalog se basa en los siguientes conceptos:
Entrada: Una entrada representa un recurso de datos. La mayoría de los metadatos se describen con aspectos dentro de una entrada. Esto es similar a las entradas en Data Catalog. Para obtener más información, consulta Entradas.
Aspecto: Un aspecto es un conjunto de campos de metadatos relacionados dentro de una entrada. Un aspecto se puede interpretar como un elemento básico de una entrada o como metadatos adicionales a ella. Esto es similar a las etiquetas en Data Catalog, sin embargo, los aspectos se almacenan dentro de las entradas y no como recursos independientes. Para obtener más información, consulta Aspectos.
Tipo de aspecto: Un tipo de aspecto es una plantilla reutilizable para aspectos. Cada aspecto es una instancia de un tipo de aspecto. Esto es similar a las plantillas de etiquetas en Data Catalog. Para obtener más información, consulta Tipos de aspectos.
Grupo de entradas: Es un contenedor de entradas que funciona como unidad de administración para estas entradas. Por ejemplo, usa un grupo de entradas para configurar el control de acceso de Identity and Access Management, la atribución del proyecto o la ubicación de las entradas del grupo de entradas. Esto es similar a los grupos de entradas en Data Catalog. Para obtener más información, consulta Grupos de entrada.
Tipo de entrada: Un tipo de entrada es una plantilla para crear entradas. Establece los elementos de metadatos esenciales, descritos como una lista de aspectos obligatorios para las entradas de este tipo. Para obtener más información, consulta Tipos de entrada.
Figura 1. Entradas y grupos de entradas Figura 2: Tipos de aspectos y tipos de entrada
Estos son algunos de los casos de uso de Dataplex Catalog:
- Como analista de datos o analista empresarial, puedes buscar entradas en toda la organización y explorar los metadatos asociados con ellas. Para obtener más información, consulta Cómo buscar recursos de datos.
- Como propietario de los datos o regulador de datos, puedes capturar metadatos técnicos y empresariales adicionales anotando tus entradas con aspectos. Para obtener más información, consulta Administra aspectos y enriquece metadatos.
- Como propietario o regulador de datos, puedes definir los estándares para la anotación (con tipos de aspectos) y las entradas personalizadas (con tipos de entradas) para lograr coherencia en tus metadatos. Para obtener más información, consulta Administra aspectos y enriquece los metadatos.
- Como ingeniero de datos, puedes tener un inventario unificado de tus recursos, incluidos los recursos de Google Cloud y los de sistemas de terceros. Dataplex Catalog recopila automáticamente los recursos deGoogle Cloud , y tú recopilas los que no son deGoogle Cloud . Para obtener más información, consulta Administra las entradas y transfiere fuentes personalizadas.
Para usuarios existentes de Data Catalog
Si ya usas Data Catalog, ten en cuenta lo siguiente:
- Las entradas personalizadas, el contexto general y los grupos de entradas que creaste en Data Catalog estarán disponibles en Dataplex Catalog.
- Como administrador, puedes elegir que el contenido de las etiquetas y plantillas de etiquetas de Data Catalog esté disponible de forma simultánea en Dataplex Catalog. Para obtener más información, consulta Cómo migrar de Data Catalog a Dataplex Catalog.
- Cuando buscas recursos de datos en Dataplex Catalog, se incluyen los metadatos que se crearon directamente en Dataplex Catalog y los metadatos que se transfirieron de Data Catalog a Dataplex Catalog.
- Cuando buscas recursos de datos en Data Catalog, solo se incluyen los metadatos que se crearon en Data Catalog.
- Las descripciones de los grupos de entradas de Data Catalog que superan los 1,024 caracteres se truncan a 1,024 caracteres en Dataplex Catalog.
Para obtener más información sobre cómo migrar el contenido y el uso de Data Catalog a Dataplex Catalog, consulta Cómo migrar de Data Catalog a Dataplex Catalog.
Comparación entre Dataplex Catalog y Data Catalog
Dataplex Catalog proporciona una función para administrar tus metadatos en Dataplex. Viene con un almacenamiento de metadatos independiente y un conjunto nuevo de métodos de API que están integrados en la API de Dataplex.
Las funciones principales de Dataplex Catalog incluyen las siguientes:
Metamodelo más sólido
- Entradas escritas Puedes aplicar estándares mínimos de metadatos definiendo el contenido de metadatos requerido para las entradas personalizadas.
- Metamodelo configurable por el usuario para entradas personalizadas, que ayuda a que la transferencia personalizada sea más sólida y mejora la coherencia y la exhaustividad de los metadatos personalizados.
- Compatibilidad con una variedad y complejidad más amplias de metadatos, incluida la compatibilidad con estructuras anidadas, como listas, mapas y arrays.
Escalabilidad mejorada, incluida la capacidad de interactuar con todos los metadatos asociados con una entrada a través de operaciones CRUD atómicas únicas y la capacidad de recuperar varias anotaciones de metadatos asociadas en respuestas de búsqueda o de lista.
En la siguiente tabla, se comparan las funciones de Dataplex Catalog y Data Catalog:
Función | Dataplex Catalog | Data Catalog |
---|---|---|
Fuentes Google Cloud compatibles | Todas las fuentes como se describe en la sección Fuentes Google Cloud compatibles de este documento | Todas las fuentes que se describen en Entradas y grupos de entradas |
Transferencia de fuentes personalizadas | Transferencia a entradas personalizadas con estructura regulada, definida por tipos de entrada Las entradas y los grupos de entradas personalizados de Data Catalog están disponibles en
Dataplex Catalog en el tipo de entrada | Transferencia a entradas personalizadas genéricas |
Enriquecimiento de metadatos | El contexto de metadatos de las entradas se captura con aspectos y tipos de aspectos. | El contexto de metadatos de las entradas se captura con etiquetas y plantillas de etiquetas. |
Buscar | La búsqueda se realiza en los siguientes campos:
Los resultados de la búsqueda solo incluyen los recursos que pertenecen a la misma organización y al mismo perímetro de VPC-SC que el proyecto en el que se realiza la búsqueda. Cuando usas la consola de Google Cloud, este es el proyecto que se selecciona en la consola. Ten en cuenta que, para buscar entradas, necesitas tener al menos uno de los roles de IAM de Dataplex Catalog en el proyecto que se usa en la búsqueda. Los permisos de los resultados de la búsqueda se verifican independientemente del proyecto seleccionado. |
La búsqueda se realiza en los siguientes campos:
|
Linaje de datos |
El linaje de datos recupera los detalles de entrada de los nodos de activos con la API de Dataplex. La consola de Google Cloud muestra los aspectos adjuntos. |
El linaje de datos recupera los detalles de entrada de los nodos de activos con la API de Data Catalog. La consola de Google Cloud muestra las etiquetas adjuntas y los términos del glosario. |
En la siguiente tabla, se describe cómo los recursos de Dataplex Catalog corresponden a los recursos de Data Catalog:
Recurso de Dataplex Catalog | Recurso de Data Catalog | Descripción |
---|---|---|
Tipo de aspecto (global ) |
Plantilla de etiqueta pública | Las plantillas de etiquetas son recursos regionales. Sin embargo, puedes usarlos para crear etiquetas en todas las regiones. Las plantillas de etiquetas corresponden a los tipos de aspecto global en Dataplex Catalog. |
Aspecto opcional | Etiqueta pública | Las etiquetas públicas de Data Catalog corresponden a aspectos opcionales en Dataplex Catalog. |
Grupo de entradas | Grupo de entradas | Para las Google Cloud fuentes, los grupos de entradas del sistema, como @bigquery ,
se establecen por proyecto en Dataplex Catalog. |
Aspectos obligatorios de la entrada personalizada | Entrada personalizada | Data Catalog y Dataplex Catalog comparten conceptos similares para las entradas personalizadas. Las propiedades de entrada estándar se modelan como aspectos obligatorios en Dataplex Catalog. |
Aspectos obligatorios de la entrada del sistema | Entrada del sistema (Google Cloud) | Los metadatos que describen entidades integradas, como Schema para las tablas de BigQuery, se capturan en los aspectos obligatorios de los tipos de aspectos definidos por el sistema. |
Para obtener más información sobre las funciones que están disponibles en Data Catalog, pero que no son compatibles con Dataplex Catalog, consulta la sección Funciones que no son compatibles con Dataplex Catalog en este documento.
Fuentes compatibles
Los metadatos de las siguientes Google Cloud fuentes se transfieren automáticamente a Dataplex Catalog:
- Intercambios y fichas de Analytics Hub
- Conjuntos de datos, tablas, modelos, rutinas, conexiones y conjuntos de datos vinculados de BigQuery
- Instancias, clústeres y tablas de Bigtable (incluidos los detalles de las familias de columnas)
- Repositorios de Dataform y recursos de código
- Instancias, bases de datos, esquemas, tablas y vistas de Cloud SQL: Consulta Cómo habilitar la integración de Cloud SQL
- Servicios, base de datos y tablas de Dataproc Metastore
- Temas de Pub/Sub
- Instancias, bases de datos, tablas y vistas de Spanner
- Modelos, conjuntos de datos, grupos de atributos, vistas de atributos e instancias de la tienda en línea de Vertex AI
Para importar metadatos de una fuente externa a Dataplex Catalog, puedes usar una canalización de conectividad administrada.
Restricciones de proyectos y ubicaciones
Los recursos de Dataplex Catalog se alojan en varios proyectos y ubicaciones. Se aplica la siguiente limitación:
Ubicación:
- La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada o el tipo de entrada debe ser
global
. - Un aspecto agregado a una entrada debe basarse en un tipo de aspecto que se almacene en la misma ubicación que la entrada, o bien el tipo de aspecto debe ser
global
. - Un tipo de entrada debe estar compuesto por tipos de aspectos que se almacenan en la misma ubicación que el tipo de entrada.
- La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada o el tipo de entrada debe ser
Proyecto:
- Si un tipo de entrada hace referencia a tipos de aspectos personalizados, estos deben estar en la misma ubicación y proyecto que el tipo de entrada.
Funciones que no son compatibles con Dataplex Catalog
Las siguientes funciones que están disponibles en Data Catalog no se admiten en Dataplex Catalog:
- El concepto de aspectos privados y tipos de aspectos privados (equivalentes a las etiquetas privadas y las plantillas de etiquetas privadas en Data Catalog) no existe en Dataplex Catalog.
- La búsqueda de etiquetas de políticas no es compatible con la búsqueda de Dataplex Catalog. Por lo tanto, los predicados
policytag
ypolicytagid
no funcionan en la búsqueda de Dataplex Catalog. - Cuando transfieres grupos de entradas personalizados, entradas personalizadas, plantillas de etiquetas y etiquetas de Data Catalog a Dataplex Catalog, sus permisos originales no se transfieren. Debes configurar de forma explícita los permisos de IAM para los metadatos copiados antes de usarlos.
- La compatibilidad de Terraform para administrar aspectos y entradas personalizadas no está disponible. En su lugar, puedes administrar tus metadatos personalizados a gran escala de forma programática con una canalización de conectividad administrada o los métodos de la API de importación de metadatos. (La compatibilidad de Terraform con grupos de entradas, tipos de entrada y tipos de aspecto está disponible; consulta Aprovisiona recursos de Dataplex con Terraform).
- No se admite enviar los resultados de la inspección de la protección de datos sensibles directamente a Dataplex Catalog. En su lugar, puedes enviar los resultados de la inspección de Protección de datos sensibles a Data Catalog y, luego, migrar los resultados a Dataplex Catalog.
- No puedes enumerar los tipos de entrada y los tipos de aspecto en todos los proyectos con la API. Puedes limitar la solicitud de lista solo a un proyecto.
- No puedes adjuntar términos del glosario empresarial (versión preliminar) a las columnas de las entradas de Dataplex Catalog.
- No se admite el registro de lakes, zonas, recursos y entidades de Dataplex como entradas en Dataplex Catalog. Además, no se admite filtrar por lagos o zonas cuando se usa la búsqueda de Dataplex Catalog. Puedes usar lakes y zonas independientemente de Dataplex Catalog.
- No se admite la búsqueda de administradores, que garantiza la recuperación completa.
Para comparar las funciones y los recursos que se admiten en Dataplex Catalog y Data Catalog, consulta la sección Dataplex Catalog en comparación con Data Catalog en este documento.
Precios
Dataplex usa el SKU de almacenamiento de metadatos para cobrar por el almacenamiento de metadatos. Para obtener más información, consulta Precios de Dataplex.
No se aplican cargos por usar los siguientes servicios:
- Cómo crear y administrar recursos de Dataplex Catalog
- Llamadas a la API de búsqueda para Dataplex Catalog
- Búsquedas realizadas en la página Dataplex Catalog de la consola de Google Cloud
¿Qué sigue?
- Obtén información para buscar recursos en Dataplex Catalog.
- Obtén más información para administrar recursos y enriquecer metadatos.
- Obtén más información para administrar entradas y transferir fuentes personalizadas.
- Obtén más información para migrar de Data Catalog a Dataplex Catalog.