Conceptos de la malla de datos

Antes de comenzar con la guía detallada sobre la implementación de Data Mesh con Google Cloud Cortex Framework, esta página proporciona una base para comprender cómo se implementan, en general, los conceptos relevantes de Data Mesh dentro de un producto Google Cloud y, específicamente, con el contexto de Cortex Framework. Después de comprender los conceptos de Data Mesh, consulta la Guía del usuario de Data Mesh para Cortex Framework Data Foundation.

Dataplex

En la siguiente tabla, se definen los conceptos de la malla de datos en Dataplex:

Concepto Descripción Contexto de Cortex Framework
Lago Es la unidad de nivel superior para organizar los datos dentro de una malla de datos. Administra Dataplex: Lakes. Una fuente de datos, por ejemplo, SAP ECC, Salesforce o Google Ads.
Zona Es una unidad de segundo nivel para organizar los datos dentro de un lago. Capas de procesamiento específicas dentro de una fuente de datos, como datos sin procesar en comparación con CDC
Recurso de Dataplex Es una referencia a los datos almacenados en Cloud Storage o BigQuery que están asociados con una zona. Esta es una referencia al recurso de datos, no a los datos en sí. Es una referencia a los conjuntos de datos de BigQuery registrados en zonas.
Etiqueta Son pares clave-valor arbitrarios que se pueden aplicar a lagos o zonas. Etiqueta lagos o zonas completos (en lugar de tablas o columnas) con metadatos que se pueden ver en Dataplex o usar para aplicaciones personalizadas.
Data Catalog Son metadatos técnicos empresariales que se pueden usar para ayudar a descubrir, comprender o administrar recursos de datos dentro de un almacén. Anota tablas o columnas (en lugar de lagos o zonas) con etiquetas de metadatos enriquecidos que se pueden usar en la búsqueda de Dataplex o aplicaciones personalizadas.
Plantillas de etiquetas de catálogo Es una plantilla que define los campos disponibles y sus tipos en una etiqueta. Administra Dataplex: Plantillas de etiquetas Define un conjunto de plantillas para usos como etiquetar recursos de datos con líneas de negocio.
Etiqueta de catálogo Es un conjunto de campos y sus valores que contienen metadatos aplicables a una tabla o columna. Es una instancia de una plantilla de etiqueta. Anota una tabla o columna con valores de metadatos relevantes para ese activo, como una línea de negocio en particular.
Glosario del catálogo Es un diccionario de términos que se pueden definir y asociar con columnas de BigQuery. Administra Dataplex: Glosarios. Define los términos o acrónimos que se usan en los activos de BigQuery. Ten en cuenta que esto está planificado para el futuro y aún no se admite.
Linaje de datos Un gráfico que representa las dependencias de los activos de BigQuery Cortex Data Mesh no los define, pero es una herramienta relevante de Dataplex para ayudar a los usuarios a descubrir las fuentes de datos de los activos de BigQuery.
Evento de linaje Un momento en el que se produjo una operación para mover datos entre los activos de BigQuery. Contiene una lista de vínculos. Se crea automáticamente para las operaciones compatibles con BigQuery y Composer.
Vínculo de linaje Un borde que representa los datos que fluyen de una fuente al activo de destino como parte de un evento de linaje. Se puede analizar para admitir casos de uso más allá de los gráficos de visualización de linaje que se presentan en la consola.

BigQuery

En la siguiente tabla, se definen los conceptos de Data Mesh en BigQuery:

Concepto Descripción Contexto de Cortex Framework
Taxonomía de políticas Una jerarquía de etiquetas de políticas. Administra BigQuery: Etiquetas de política. Organiza las etiquetas de políticas relacionadas que se pueden usar para el control de acceso en una jerarquía con permisos heredados.
Etiqueta de política Es una etiqueta que se aplica a columnas específicas dentro de una tabla o vista de BigQuery. Se pueden aplicar etiquetas de políticas en cualquier nivel de la jerarquía. Solo se puede aplicar una etiqueta de política a una columna en particular. Anota las columnas con etiquetas que se usan para el control de acceso a nivel de la columna. Las principales de la etiqueta de política definen lectores "detallados" o "sin enmascarar" que pueden ver los datos sin procesar de las columnas.
Política de datos Son las políticas aplicadas a una etiqueta de política que definen cómo y quién puede ver los datos de la columna enmascarada. Los principales de la Política de Datos definen a los "lectores enmascarados" que pueden ver los datos de las columnas enmascaradas. Cualquier persona que no tenga privilegios de lector enmascarados o no enmascarados no podrá consultar la columna.
Regla de enmascaramiento Son reglas que se aplican a una política de datos y que definen cómo se enmascaran los datos, por ejemplo, el hash, la visualización de un valor predeterminado, los últimos cuatro caracteres y otros. Se aplica de forma situacional a las columnas sensibles.
Política de acceso a las filas Son instrucciones SQL que definen qué grupos pueden consultar filas dentro de tablas según valores de columnas específicas. Se usa para el control de acceso a nivel de fila cuando el control a nivel de activos y columnas no es suficiente.

Concepto de malla de datos de Cortex

En la siguiente tabla, se definen conceptos específicos de Data Mesh dentro de Cortex Framework:

Concepto Descripción Contexto de Cortex Framework
Recurso de metadatos Son entidades de metadatos que se pueden reutilizar en varios recursos de BigQuery. Algunos ejemplos son los lagos, las plantillas de etiquetas del catálogo y las taxonomías de políticas. Esto se refiere específicamente a los metadatos y no a los datos en BigQuery. Define recursos reutilizables para permitir una administración coherente de Cortex Data Mesh.
Recurso de BigQuery Tabla o vista de BigQuery Objetos de BigQuery de Cortex existentes que se administran con Data Mesh
Anotaciones de recursos de BigQuery Son metadatos aplicados a una tabla o vista de BigQuery específica. Esto incluye descripciones, políticas de acceso y asignaciones a recursos de metadatos. Asocia metadatos con los recursos de BigQuery para habilitar el descubrimiento y el control de acceso.
Especificación de recursos (especificación) Un archivo YAML que define un recurso de metadatos o una anotación de activos de BigQuery El conjunto completo de especificaciones de recursos codifica la configuración de Data Mesh que se implementará.