Descripción general de Dataplex Catalog

En este documento, se describe Dataplex Catalog, que proporciona un plataforma para almacenar, administrar y acceder a tus metadatos.

Dataplex Catalog proporciona un inventario unificado Los recursos de Google Cloud, como BigQuery, entre otros, como los recursos locales. Se recolectan los metadatos de los recursos de Google Cloud automáticamente, y llevar metadatos de recursos de terceros a Catálogo de Dataplex.

Dataplex Catalog te permite enriquecer tu inventario con recursos metadatos técnicos y empresariales para capturar el contexto y el conocimiento sobre tu de Google Cloud. Con Dataplex Catalog, puedes buscar y descubrir tus datos en toda la organización y permitir la administración de tus datos activos de datos de una empresa.

Casos de uso

Puedes usar Dataplex Catalog para hacer lo siguiente:

  • Descubre y comprende tus datos. Catálogo de Dataplex proporciona visibilidad sobre tus recursos de datos en toda la organización. Te permite a encontrar recursos relevantes para las necesidades de consumo de datos. Aporta contexto de los recursos de datos, lo que te ayuda a comprender la idoneidad de los datos recursos para las necesidades de los consumidores de datos.

  • Habilita la administración y la administración de datos. Catálogo de Dataplex Proporciona metadatos que pueden fundamentar y potenciar tu administración de datos y de administración de identidades y accesos.

  • Mantén un repositorio integral y extensible para tus metadatos. Dataplex Catalog almacena y proporciona acceso a metadatos que se recopila automáticamente de tus recursos de Google Cloud. Puedes integrar tus propios metadatos de sistemas que no son de Google Cloud. Puedes enriquecer todo metadatos con anotaciones adicionales de metadatos empresariales y técnicos.

Cómo funciona Dataplex Catalog

Dataplex Catalog se basa en los siguientes conceptos:

  • Entrada: Una entrada representa un recurso de datos. La mayoría de los metadatos se describen por aspectos dentro de una entrada. Esto es similar a en Data Catalog. Para obtener más información, consulta Entradas.

  • Aspecto: Un aspecto es un conjunto de campos de metadatos relacionados dentro de una entrada. Un aspecto puede interpretarse como un componente básico de una entrada o metadatos adicionales. Esto es similar a en Data Catalog, Sin embargo, los aspectos se almacenan en entradas y no como recursos independientes. Para obtener más información, consulta Aspectos.

  • Tipo de aspecto: Un tipo de aspecto es una plantilla reutilizable de aspectos. Cada aspecto es una instancia de un tipo de aspecto. Esto es similar a Plantillas de etiquetas en Data Catalog. Para obtener más información, consulta Tipos de aspecto.

  • Grupo de entrada: Es un contenedor de entradas que funciona como unidad de administración para estas entradas. Por ejemplo, usa un grupo de entrada para configurar el control de acceso de IAM, la atribución de proyectos o la ubicación para el entradas del grupo de entrada. Esto es similar a grupos de entrada en Data Catalog. Para obtener más información, consulta Grupos de entrada.

  • Tipo de entrada: Un tipo de entrada es una plantilla para crear entradas. Integra establece los elementos esenciales de metadatos, descritos como una lista de y los aspectos obligatorios para las entradas de este tipo. Para obtener más información, consulta Tipos de entrada.

    Entradas y grupos de entrada
    Figura 1. Entradas y grupos de entradas
    Tipos de aspecto y tipos de entrada
    Figura 2: Tipos de aspecto y tipos de entrada

Estos son algunos de los casos de uso de Dataplex Catalog:

  • Como analista de datos o de negocio, puedes buscar entradas en las organización y explorar los metadatos asociados a las entradas. Para para obtener más información, consulta Busca recursos de datos.
  • Como propietario o controlador de datos, puedes obtener información los metadatos empresariales anotando tus entradas con aspectos. Para obtener más información, consulta Administra aspectos y enriquece los metadatos.
  • Como propietario o controlador de datos, puedes aportar coherencia a tu metadatos definiendo los estándares para la anotación (con tipos de aspecto) y entradas personalizadas (con tipos de entrada). Para obtener más información, consulta Administra aspectos y enriquece los metadatos.
  • Como ingeniero de datos, puede tener un inventario unificado de los recursos, incluidos recursos de Google Cloud y recursos de sistemas de terceros. Los recursos de Google Cloud se recogen automáticamente Dataplex Catalog y recursos que no son de Google Cloud son que recopilaste. Para obtener más información, consulta Administra entradas y transfiere fuentes personalizadas.

Si ya usas Data Catalog, ten en cuenta lo siguiente:

  • Entradas personalizadas, contexto de descripción general y grupos de entradas que creaste en Data Catalog están disponibles en Dataplex Catalog.
  • Las etiquetas y plantillas de etiquetas creadas en Data Catalog no están disponibles en Catálogo de Dataplex.
  • Cuando buscas recursos de datos en Dataplex Catalog, tanto metadatos creados directamente en Dataplex Catalog los metadatos que se incorporaron de Data Catalog Dataplex Catalog están incluidos.
  • Cuando buscas recursos de datos en Data Catalog, solo los incluidos los metadatos que se crearon en Data Catalog.
  • Las descripciones de los grupos de entradas en Data Catalog que superan los 1,024 caracteres se truncan a 1024 caracteres en Catálogo de Dataplex.

Dataplex Catalog frente a Data Catalog

Dataplex Catalog proporciona una capacidad para administrar tus los metadatos en Dataplex. Incluye un almacenamiento de metadatos independiente y un un nuevo conjunto de métodos de API integrados en la API de Dataplex.

Entre las funciones principales de Dataplex Catalog, se incluyen las siguientes:

  • Metamodelo más sólido

    • Entradas escritas Puedes aplicar estándares mínimos de metadatos definiendo contenido de metadatos obligatorio para entradas personalizadas
    • Metamodel configurable por el usuario para entradas personalizadas, lo que ayuda a crear entradas la transferencia de datos es más sólida y mejora la coherencia de los metadatos personalizados y integral.
    • Compatibilidad con una mayor variedad y complejidad de metadatos, incluida la asistencia para anidar estructuras como listas, mapas y arrays.
  • Escalabilidad mejorada, incluida la capacidad de interactuar con todos los metadatos que está asociada con una entrada mediante operaciones atómicas individuales de CRUD, y el capacidad para recuperar múltiples anotaciones de metadatos asociadas en búsqueda o en listas de respuestas ante incidentes.

En la siguiente tabla, se comparan las funciones de Dataplex Catalog y Data Catalog:

()
Comparación entre Dataplex Catalog y Data Catalog
Atributo Catálogo de Dataplex Data Catalog
Fuentes de Google Cloud compatibles Todas las fuentes, como se describe en el Fuentes de Google Cloud compatibles de este documento. Todas las fuentes descritas en Entradas y grupos de entradas.
Transferencia de fuentes personalizadas

Transferencia a entradas personalizadas con estructura administrada, definida por tipos de entradas.

Las entradas personalizadas y los grupos de entradas de Data Catalog están disponibles en Dataplex Catalog en el tipo de entrada generic.

Transferencia a entradas personalizadas genéricas.
Enriquecimiento de metadatos El contexto de metadatos de las entradas se captura a través de aspectos y tipos de aspecto. El contexto de metadatos de las entradas se captura a través de etiquetas y plantillas de etiquetas.
Buscar La búsqueda se realiza a través de lo siguiente:
  • Todas las fuentes de Google Cloud descritas en Fuentes de Google Cloud compatibles
  • Entradas personalizadas que se crean en Dataplex Catalog
  • Aspectos que se crean en Dataplex Catalog
  • Entradas personalizadas que se crean en Data Catalog y se incorporan a Dataplex Catalog

Los resultados de la búsqueda incluyen solo aquellos recursos que pertenecen al mismo Perímetro de VPC-SC como el proyecto en el que se realiza la búsqueda. Cuando uses de la consola de Google Cloud, este es el proyecto que se selecciona en la la consola de Cloud.

Para buscar entradas, necesitas al menos uno de los Roles de IAM de Dataplex Catalog en el proyecto que se usa para la búsqueda. Los permisos en los resultados de la búsqueda son verificarse independientemente del proyecto seleccionado.

La búsqueda se realiza a través de lo siguiente:
  • Todas las fuentes de Google Cloud descritas en Entradas y grupos de entradas
  • Entradas personalizadas que se crean en Data Catalog
  • Etiquetas que se crean en Data Catalog

En la siguiente tabla, se describe cómo los recursos de Dataplex Catalog corresponden a los recursos de Data Catalog:

()
Asignación entre Dataplex Catalog y Data Catalog recursos
Recurso de Dataplex Catalog Recurso de Data Catalog Descripción
Tipo de aspecto (global) Plantilla de etiqueta pública Las plantillas de etiquetas son recursos regionales. Sin embargo, puedes usarlos para crear etiquetas en las regiones. Las plantillas de etiquetas corresponden al aspecto global en Dataplex Catalog.
Aspecto opcional Etiqueta pública Las etiquetas públicas en Data Catalog corresponden a aspectos opcionales en Catálogo de Dataplex.
Grupo de entradas Grupo de entradas Para las fuentes de Google Cloud, los grupos de entrada del sistema, como @bigquery se establecen por proyecto en Dataplex Catalog.
Aspectos obligatorios de la entrada personalizada Entrada personalizada

Distribución de Data Catalog y Dataplex Catalog conceptos similares para las entradas personalizadas.

Las propiedades de entrada estándar se modelan como aspectos obligatorios en Catálogo de Dataplex.

Aspectos obligatorios de la entrada del sistema Entrada del sistema (Google Cloud) Metadatos que describen entidades integradas, como Schema de tablas de BigQuery, se capturan en los aspectos obligatorios del tipos de aspecto definidos por el sistema.

Para obtener más información sobre las funciones que están disponibles en Data Catalog y no son compatibles con Dataplex Catalog, consulta la sección Funciones que no son compatibles con Dataplex Catalog de este documento.

Fuentes de Google Cloud compatibles

Los metadatos de las siguientes fuentes de Google Cloud se transfieren automáticamente en Dataplex Catalog:

  • Intercambios y fichas de Analytics Hub
  • conjuntos de datos, tablas, modelos, rutinas, conexiones y conjuntos de datos vinculados
  • las instancias, los clústeres y las tablas de Bigtable detalles de la familia)
  • Instancias, bases de datos, esquemas, tablas y vistas de Cloud SQL
  • Servicios, base de datos y tablas de Dataproc Metastore
  • Temas de Pub/Sub
  • Instancias, bases de datos, tablas y vistas de Spanner
  • Modelos y conjuntos de datos de Vertex AI

Restricciones de proyectos y ubicaciones

Los recursos de Dataplex Catalog se alojan en varios proyectos. y ubicaciones. Se aplica la siguiente limitación:

  • Ubicación:

    • La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada o el tipo de entrada debe ser global.
    • Los aspectos que se agregan a una entrada deben basarse en un tipo de aspecto que se almacene. en la misma ubicación que la entrada, o el tipo de aspecto debe ser global.
    • Un tipo de entrada debe estar compuesto por tipos de aspecto que se almacenen en la misma como el tipo de entrada.
  • Proyecto:

    • Si un tipo de entrada hace referencia a tipos de aspectos personalizados, entonces los tipos de aspecto deben ser en la misma ubicación y proyecto que el tipo de entrada.

Funciones que no son compatibles con Dataplex Catalog

Las siguientes funciones que están disponibles en Data Catalog no son compatibles con Dataplex Catalog:

  • La noción de aspectos privados y tipos de aspecto no se admite en Catálogo de Dataplex. El acceso a los aspectos se rige por los permisos asociados a la entrada que contiene los aspectos. Para obtener más información, consulta Funciones de IAM de Dataplex.
  • La búsqueda de etiquetas de política no es compatible con Dataplex Catalog búsqueda; por lo tanto, los predicados policytag y policytagid no funcionan en la búsqueda de Dataplex Catalog.
  • Para las entradas personalizadas de Data Catalog que se trasladan Dataplex Catalog, los permisos de IAM existentes para tu los metadatos actuales no se propagan automáticamente a los metadatos copiados. Debes configurar de forma explícita permisos de IAM para los metadatos copiados antes de usarlos.
  • Se están enviando los resultados del trabajo de Sensitive Data Protection a No se admite Dataplex Catalog.
  • No puedes enumerar tipos de entrada y tipos de aspecto en varios proyectos con la API. Puedes determinar el alcance de la solicitud de lista solo para un proyecto.
  • No puedes adjuntar el glosario empresarial. términos a las columnas de entradas de Dataplex.
  • No puedes modificar la lista de los tipos de aspecto obligatorios en un tipo de entrada después de creas el tipo de entrada.

Precios

Dataplex usa el SKU de almacenamiento de metadatos para cobrar por el almacenamiento de metadatos. Para obtener más información, consulta Precios de Dataplex.

No se aplican cargos por usar los siguientes elementos:

  • Crea y administra recursos de Dataplex Catalog
  • Buscar llamadas a la API de Dataplex Catalog
  • Las búsquedas realizadas en la página de Dataplex Catalog en Consola de Google Cloud

¿Qué sigue?