数据网格概念
在深入了解有关使用 Google Cloud Cortex Framework 部署数据网格的详细指南之前,请先参阅本页面,了解相关数据网格概念通常如何在产品中实现,以及在 Cortex Framework 上下文中如何实现。 Google Cloud 了解数据网格概念后,请参阅 Cortex Framework 数据基础架构的数据网格用户指南。
Dataplex
下表定义了 Dataplex 中的数据网格概念:
概念 | 说明 | Cortex Framework 上下文 |
湖泊 | 用于在数据网格中整理数据的顶级单元。管理 Dataplex - 数据湖。 | 数据源,例如 SAP ECC 、Salesforce 、Google Ads 。
|
区域 | 用于在数据湖中整理数据的第二级单元。 | 数据源中的特定处理层,例如原始数据与 CDC。 |
Dataplex 资产 | 对存储在 Cloud Storage 或 BigQuery 中且与某个区域关联的数据的引用。这是对数据资产的引用,而不是对数据本身的引用。 | 对在可用区注册的 BigQuery 数据集的引用。 |
标签 | 可应用于数据湖或可用区的任意键值对。 | 使用可在 Dataplex 中查看或用于自定义应用的元数据为整个数据湖或存储区(而非表或列)添加标签。 |
Data Catalog | 技术业务元数据,可帮助发现、了解或管理数据仓库中的数据资产。 | 使用可在 Dataplex 搜索或自定义应用中使用的丰富元数据标记为表或列(而非数据湖或可用区)添加注释。 |
目录代码模板 | 用于定义代码中可用字段及其类型的模板。管理 Dataplex - 代码模板 | 定义一组模板,用于标记数据资产中的业务领域等用途。 |
目录代码 | 一组字段及其值,其中包含适用于表或列的元数据。标记模板的实例。 | 使用与相应素材资源相关的元数据值(例如特定业务领域)为表格或列添加注释。 |
目录术语表 | 可定义并与 BigQuery 列相关联的术语字典。管理 Dataplex - 术语表。 | 定义 BigQuery 素材资源中使用的术语或缩写词。请注意,我们计划在未来实现此功能,但目前尚不支持。 |
数据沿袭 | 表示 BigQuery 资产依赖项的图表。 | 这些数据源并非由 Cortex Data Mesh 定义,但它是一款相关的 Dataplex 工具,可帮助用户发现 BigQuery 资产数据源。 |
谱系事件 | 在 BigQuery 素材资源之间移动数据的操作发生的时间点。包含链接列表。 | 系统会为受支持的 BigQuery 和 Composer 操作自动创建。 |
沿袭链接 | 表示数据在沿袭事件中从来源流向目标资产的边。 | 您可以对其进行分析,以支持除控制台中显示的谱系可视化图表之外的使用情形。 |
BigQuery
下表定义了 BigQuery 中的数据网格概念:
概念 | 说明 | Cortex Framework 上下文 |
政策分类 | 政策标记的层次结构。管理 BigQuery - 政策标记。 | 将可用于访问权限控制的相关政策标记整理为具有继承权限的层次结构。 |
政策标记 | 应用于 BigQuery 表或视图中特定列的标记。您可以在层次结构中的任一级别应用政策标记。您只能对特定列应用一个政策标记。 | 使用用于列级访问权限控制的标记为列添加注释。政策标记上的主账号定义了可以查看原始列数据的“精细”或“未经遮盖”Reader。 |
数据政策 | 应用于政策标记的政策,用于定义如何以及哪些人可以查看遮盖的列数据。 | 数据政策中的主账号定义了可以查看经过遮盖的列数据的“Masked Reader”。任何没有经过脱敏或未经过脱敏的读者权限的用户都无法查询该列。 |
遮盖规则 | 应用于数据政策的规则,用于定义数据的遮盖方式,例如哈希处理、显示默认值、显示最后四位字符等。 | 根据情况应用于敏感列。 |
行访问权限政策 | 用于定义哪些组可以根据特定列值查询表中行数的 SQL 语句。 | 当资产级和列级控制不足时,用于行级访问权限控制。 |
Cortex Data Mesh 概念
下表定义了 Cortex Framework 中的具体数据网格概念:
概念 | 说明 | Cortex Framework 上下文 |
元数据资源 | 可在多个 BigQuery 资产中重复使用的元数据实体。例如数据湖、目录标记模板和政策分类。具体而言,这是指元数据,而不是 BigQuery 中的数据。 | 定义可重复使用的资源,以便一致地管理 Cortex Data Mesh。 |
BigQuery 素材资源 | BigQuery 表或视图。 | 使用数据网格进行管理的现有 Cortex BigQuery 对象。 |
BigQuery 资产注释 | 应用于特定 BigQuery 表或视图的元数据。这包括说明、访问权限政策以及与元数据资源的映射。 | 将元数据与 BigQuery 资产相关联,以实现发现和访问权限控制。 |
资源规范 (spec) | 用于定义元数据资源或 BigQuery 资产注释的 YAML 文件。 | 一整套资源规范会对要部署的数据网格配置进行编码。 |