Descripción general de Dataplex Catalog

En este documento, se describe Dataplex Catalog, que proporciona una plataforma para almacenar, administrar y acceder a tus metadatos.

Dataplex Catalog proporciona un inventario unificado de recursos de Google Cloud, como BigQuery, y otros recursos, como los locales. Los metadatos de los recursos de Google Cloud se recopilan de forma automática, y tú puedes llevar los metadatos de los recursos de terceros a Dataplex Catalog.

Dataplex Catalog te permite enriquecer tu inventario con metadatos empresariales y técnicos adicionales para capturar el contexto y el conocimiento sobre tus recursos. Con Dataplex Catalog, puedes buscar y descubrir tus datos en toda la organización y habilitar la administración de datos de tus recursos de datos.

Casos de uso

Puedes usar Dataplex Catalog para hacer lo siguiente:

  • Descubre y comprende tus datos. Dataplex Catalog proporciona visibilidad sobre tus recursos de datos en toda la organización. Te permite encontrar recursos relevantes para las necesidades de consumo de datos. Proporciona contexto para los recursos de datos, lo que te ayuda a comprender la idoneidad de los recursos de datos para las necesidades de tus consumidores de datos.

  • Habilita la administración y la administración de datos. Dataplex Catalog proporciona metadatos que pueden informar y potenciar tus capacidades de administración y administración de datos.

  • Mantén un repositorio integral y extensible para tus metadatos. Dataplex Catalog almacena y proporciona acceso a metadatos que se recopilan automáticamente de tus recursos de Google Cloud. Puedes integrar tus propios metadatos desde sistemas que no sean de Google Cloud. Puedes enriquecer todos los metadatos con anotaciones adicionales de metadatos empresariales y técnicos.

Cómo funciona Dataplex Catalog

Dataplex Catalog se basa en los siguientes conceptos:

  • Entrada: Una entrada representa un recurso de datos. La mayoría de los metadatos se describen por aspectos dentro de una entrada. Esto es similar a las entradas en Data Catalog. Para obtener más información, consulta Entradas.

  • Aspecto: Un aspecto es un conjunto de campos de metadatos relacionados dentro de una entrada. Un aspecto se puede interpretar como un componente básico de una entrada o como metadatos adicionales. Esto es similar a las etiquetas de Data Catalog, sin embargo, los aspectos se almacenan dentro de entradas y no como recursos independientes. Para obtener más información, consulta Aspectos.

  • Tipo de aspecto: Un tipo de aspecto es una plantilla reutilizable de aspectos. Cada aspecto es una instancia de un tipo de aspecto. Esto es similar a las plantillas de etiquetas en Data Catalog. Para obtener más información, consulta Tipos de aspecto.

  • Grupo de entrada: Es un contenedor de entradas que funciona como una unidad de administración para estas entradas. Por ejemplo, usa un grupo de entrada para configurar el control de acceso de IAM, la atribución de proyecto o la ubicación de las entradas en el grupo de entrada. Esto es similar a los grupos de entrada en Data Catalog. Para obtener más información, consulta Grupos de entrada.

  • Tipo de entrada: Un tipo de entrada es una plantilla para crear entradas. Establece los elementos de metadatos esenciales, descritos como una lista de aspectos obligatorios para entradas de este tipo. Para obtener más información, consulta Tipos de entrada.

    Entradas y grupos de entrada
    Figura 1. Entradas y grupos de entradas
    Tipos de aspecto y tipos de entrada
    Figura 2: Tipos de aspecto y tipos de entrada

Estos son algunos de los casos de uso de Dataplex Catalog:

  • Como analista de datos o de negocios, puedes buscar entradas en toda la organización y explorar los metadatos asociados con las entradas. Para obtener más información, consulta Busca recursos de datos.
  • Como propietario o controlador de datos, puedes capturar metadatos técnicos y comerciales adicionales a través de la anotación de tus entradas con aspectos. Para obtener más información, consulta Administra aspectos y enriquece los metadatos.
  • Como propietario o controlador de datos, puedes aportar coherencia a tus metadatos si defines los estándares para la anotación (con tipos de aspecto) y las entradas personalizadas (con los tipos de entrada). Para obtener más información, consulta Administra aspectos y enriquece los metadatos.
  • Como ingeniero de datos, puedes tener un inventario unificado para tus recursos, incluidos los recursos de Google Cloud y los recursos de sistemas de terceros. Dataplex Catalog recopila los recursos de Google Cloud de forma automática y tú recolectas los recursos que no son de Google Cloud. Para obtener más información, consulta Administra entradas y transfiere fuentes personalizadas.

Si ya usas Data Catalog, ten en cuenta lo siguiente:

  • Las entradas personalizadas, el contexto de descripción general y los grupos de entradas que creaste en Data Catalog están disponibles en Dataplex Catalog.
  • Las etiquetas y plantillas de etiquetas creadas en Data Catalog no están disponibles en Dataplex Catalog.
  • Cuando buscas recursos de datos en Dataplex Catalog, se incluyen los metadatos que se crearon directamente en Dataplex Catalog y los metadatos que se trajeron de Data Catalog a Dataplex Catalog.
  • Cuando buscas recursos de datos en Data Catalog, solo se incluyen los metadatos que se crearon en Data Catalog.
  • Las descripciones de grupos de entradas en Data Catalog que superan los 1,024 caracteres se truncan a los 1,024 caracteres en Dataplex Catalog.

Dataplex Catalog frente a Data Catalog

Dataplex Catalog proporciona una capacidad para administrar tus metadatos en Dataplex. Incluye un almacenamiento de metadatos independiente y un conjunto nuevo de métodos de API integrados en la API de Dataplex.

Entre las funciones principales de Dataplex Catalog, se incluyen las siguientes:

  • Metamodelo más sólido

    • Entradas escritas Puedes aplicar estándares mínimos de metadatos definiendo el contenido de metadatos necesario
    • Metamodelo configurable por el usuario para entradas personalizadas, que ayuda a que la transferencia personalizada sea más sólida y mejora la coherencia y la comprensión de los metadatos personalizados.
    • Compatibilidad con una variedad más amplia y complejidad de metadatos, incluida la compatibilidad con estructuras de anidación como listas, mapas y arreglos
  • Escalabilidad mejorada, incluida la capacidad de interactuar con todos los metadatos asociados con una entrada a través de operaciones CRUD individuales individuales y la capacidad de recuperar varias anotaciones de metadatos asociadas en respuestas de búsqueda o de lista.

En la siguiente tabla, se comparan las funciones de Dataplex Catalog y Data Catalog:

Comparación entre Dataplex Catalog y Data Catalog
Atributo Catálogo de Dataplex Data Catalog
Fuentes de Google Cloud compatibles Todas las fuentes, como se describe en la sección Fuentes compatibles de Google Cloud de este documento. Todas las fuentes descritas en Entradas y grupos de entradas.
Transferencia de fuentes personalizadas

Transferencia a entradas personalizadas con estructura administrada, definida por tipos de entrada.

Las entradas personalizadas y los grupos de entradas de Data Catalog están disponibles en Dataplex Catalog en el tipo de entrada generic.

Transferencia a entradas personalizadas genéricas.
Enriquecimiento de metadatos El contexto de metadatos de las entradas se captura a través de aspectos y tipos de aspecto. El contexto de metadatos de las entradas se captura a través de etiquetas y plantillas de etiquetas.
Búsqueda La búsqueda se realiza a través de lo siguiente:
  • Todas las fuentes de Google Cloud descritas en Fuentes compatibles de Google Cloud
  • Entradas personalizadas que se crean en Dataplex Catalog
  • Aspectos que se crean en Dataplex Catalog
  • Entradas personalizadas que se crean en Data Catalog y se llevan a Dataplex Catalog

Los resultados de la búsqueda incluyen solo aquellos recursos que pertenecen al mismo perímetro de VPC-SC que el proyecto en el que se realiza la búsqueda. Cuando usas la consola de Google Cloud, este es el proyecto que se selecciona en la consola.

La búsqueda se realiza a través de lo siguiente:
  • Todas las fuentes de Google Cloud descritas en Entradas y grupos de entradas
  • Entradas personalizadas que se crean en Data Catalog
  • Etiquetas que se crean en Data Catalog

En la siguiente tabla, se describe cómo los recursos de Dataplex Catalog se corresponden con los recursos de Data Catalog:

Asignación entre los recursos de Dataplex Catalog y Data Catalog
Recurso de Dataplex Catalog Recurso de Data Catalog Descripción
Tipo de aspecto (global) Plantilla de etiqueta pública Las plantillas de etiquetas son recursos regionales. Sin embargo, puedes usarlos para crear etiquetas entre regiones. Las plantillas de etiquetas corresponden a global tipos de aspectos en Dataplex Catalog.
Aspecto opcional Etiqueta pública Las etiquetas públicas en Data Catalog corresponden a aspectos opcionales de Dataplex Catalog.
Grupo de entradas Grupo de entradas Para las fuentes de Google Cloud, los grupos de entrada del sistema como @bigquery se establecen por proyecto en Dataplex Catalog.
Aspectos obligatorios de la entrada personalizada Entrada personalizada

Data Catalog y Dataplex Catalog comparten conceptos similares para las entradas personalizadas.

Las propiedades de entrada estándar se modelan como aspectos obligatorios en Dataplex Catalog.

Aspectos obligatorios de la entrada del sistema Entrada del sistema (Google Cloud) Los metadatos que describen entidades integradas, como Schema para las tablas de BigQuery, se capturan en los aspectos obligatorios de los tipos de aspecto definidos por el sistema.

Para obtener más información sobre las funciones que están disponibles en Data Catalog y no son compatibles con Dataplex Catalog, consulta la sección Funciones que no son compatibles con Dataplex Catalog de este documento.

Fuentes de Google Cloud compatibles

Los metadatos de las siguientes fuentes de Google Cloud se transfieren de forma automática a Dataplex Catalog:

  • Intercambios y fichas de Analytics Hub
  • Conjuntos de datos, tablas, modelos, rutinas, conexiones y conjuntos de datos vinculados de BigQuery
  • Instancias, clústeres y tablas de Bigtable (incluidos los detalles de la familia de columnas)
  • Instancias, bases de datos, esquemas, tablas y vistas de Cloud SQL
  • Servicios, base de datos y tablas de Dataproc Metastore
  • Temas de Pub/Sub
  • Instancias, bases de datos, tablas y vistas de Spanner
  • Modelos y conjuntos de datos de Vertex AI

Restricciones de proyectos y ubicaciones

Los recursos de Dataplex Catalog se alojan en varios proyectos y ubicaciones. Se aplica la siguiente limitación:

  • Ubicación:

    • La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada, o el tipo de entrada debe ser global.
    • Un aspecto que se agrega a una entrada debe basarse en un tipo de aspecto que se almacene en la misma ubicación que la entrada, o bien el tipo de aspecto debe ser global.
    • Un tipo de entrada debe estar compuesto por tipos de aspecto que se almacenen en la misma ubicación que el tipo de entrada.
  • Proyecto:

    • Si un tipo de entrada hace referencia a tipos de aspectos personalizados, estos deben estar en la misma ubicación y proyecto que el tipo de entrada.

Funciones que no son compatibles con Dataplex Catalog

Las siguientes funciones que están disponibles en Data Catalog no son compatibles con Dataplex Catalog:

  • La noción de aspectos privados y tipos de aspectos no se admite en el catálogo de Dataplex. El acceso a los aspectos se rige por los permisos asociados con la entrada que contiene los aspectos. Para obtener más información, consulta Funciones de IAM de Dataplex.
  • La búsqueda de etiquetas de política no es compatible con la búsqueda de Dataplex Catalog; por lo tanto, los predicados policytag y policytagid no funcionan en la búsqueda de Dataplex Catalog.
  • En el caso de las entradas personalizadas de Data Catalog que se incorporan a Dataplex Catalog, los permisos de IAM existentes para los metadatos actuales no se propagan de forma automática a los metadatos copiados. Debes configurar de forma explícita los permisos de IAM para los metadatos copiados antes de usarlos.
  • No se admite el envío de resultados de trabajos de protección de datos sensibles al catálogo de Dataplex.
  • No puedes enumerar tipos de entrada y tipos de aspecto en varios proyectos con la API. Puedes determinar el alcance de la solicitud de lista solo para un proyecto.
  • No puedes adjuntar términos del glosario empresarial a las columnas de las entradas de Dataplex.
  • No puedes modificar la lista de los tipos de aspecto obligatorios en un tipo de entrada después de crear el tipo de entrada.

Precios

Dataplex usa el SKU de almacenamiento de metadatos para cobrar por el almacenamiento de metadatos. Para obtener más información, consulta Precios de Dataplex.

No se aplican cargos por usar los siguientes elementos:

  • Crea y administra recursos de Dataplex Catalog
  • Buscar llamadas a la API de Dataplex Catalog
  • Búsquedas realizadas en la página de Dataplex Catalog en la consola de Google Cloud

¿Qué sigue?