数据网格概念
在深入了解有关如何使用 Google Cloud Cortex Framework 部署数据网格的详细指南之前,本页将介绍如何在 Google Cloud 产品中(尤其是 Cortex Framework 上下文中)大致实现相关的数据网格概念。了解数据网格概念后,请参阅 Cortex Framework Data Foundation 的数据网格用户指南。
Dataplex Universal Catalog
下表定义了 Dataplex Universal Catalog 中的数据网格概念:
概念 | 说明 | Cortex Framework 上下文 |
Lake | 用于在数据网格中整理数据的顶级单元。管理 Dataplex Universal Catalog - 数据湖。 | 数据源,例如 SAP ECC 、Salesforce 、Google Ads 。
|
可用区 | 用于整理数据湖内数据的第二级单元。 | 数据源中的特定处理层,例如原始层与 CDC 层。 |
Dataplex Universal Catalog 资产 | 对存储在 Cloud Storage 或 BigQuery 中且与某个可用区相关联的数据的引用。这是对数据资产的引用,而不是对数据本身的引用。 | 对在区域中注册的 BigQuery 数据集的引用。 |
标签 | 可应用于数据湖或可用区的任意键值对。 | 使用可在 Dataplex Universal Catalog 中查看或用于自定义应用的元数据标记整个湖或区(而不是表或列)。 |
Data Catalog | 可用于帮助发现、了解或管理仓库内数据资产的技术业务元数据。 | 使用可在 Dataplex Universal Catalog 搜索或自定义应用中使用的丰富元数据标记来注释表或列(而不是数据湖或数据区)。 |
目录标记模板 | 一种模板,用于定义代码中可用的字段及其类型。管理 Dataplex Universal Catalog - 标记模板 | 定义一组模板,用于标记业务线等数据资产。 |
目录代码 | 一组字段及其值,其中包含适用于表或列的元数据。标记模板的实例。 | 使用与相应资源相关的元数据值(例如特定业务线)为表或列添加注释。 |
目录术语表 | 可定义并与 BigQuery 列相关联的术语字典。管理 Dataplex Universal Catalog - 术语表。 | 定义 BigQuery 资产中使用的术语或缩写。请注意,此功能计划在未来推出,目前尚不支持。 |
数据沿袭 | 表示 BigQuery 资产依赖关系的图。 | 不过,它是相关的 Dataplex Universal Catalog 工具,可帮助用户发现 BigQuery 资产数据源。 |
沿袭事件 | 在 BigQuery 资产之间移动数据时发生操作的时间点。包含链接列表。 | 针对受支持的 BigQuery 和 Composer 操作自动创建。 |
沿袭链接 | 表示数据从来源流向目标资产(作为沿袭事件的一部分)的边。 | 除了控制台中显示的沿袭可视化图表之外,还可以对这些数据进行分析,以支持其他使用情形。 |
BigQuery
下表定义了 BigQuery 中的数据网格概念:
概念 | 说明 | Cortex Framework 上下文 |
政策分类 | 政策标记的层次结构。管理 BigQuery - 政策标记。 | 将可用于访问权限控制的相关政策标记整理为一个具有继承权限的层次结构。 |
政策标记 | 应用于 BigQuery 表或视图中特定列的标记。可以应用层次结构中任何级别的政策标记。一个特定列只能应用一个政策标记。 | 使用用于列级访问权限控制的标记来注释列。政策标记中的主账号定义了“精细”或“未遮盖”的读取者,他们可以查看原始列数据。 |
数据政策 | 应用于政策标记的政策,用于定义如何以及哪些人可以查看遮盖的列数据。 | 数据政策中的主账号定义了可以查看遮盖列数据的“遮盖数据读取者”。任何没有屏蔽或未屏蔽读取者权限的用户都无法查询该列。 |
遮盖规则 | 应用于数据政策的规则,用于定义数据的遮盖方式,例如哈希处理、显示默认值、显示最后四个字符等。 | 根据具体情况应用于敏感列。 |
行访问权限政策 | 用于定义哪些群组可以根据特定列值查询表中的行的 SQL 语句。 | 当资产级和列级控制不足时,用于行级访问权限控制。 |
Cortex Data Mesh 概念
下表定义了 Cortex Framework 中的特定数据网格概念:
概念 | 说明 | Cortex Framework 上下文 |
元数据资源 | 可在多个 BigQuery 资产中重复使用的元数据实体。例如,湖、目录标记模板和政策分类。这专门指元数据,而不是 BigQuery 中的数据本身。 | 定义可重用的资源,以实现对 Cortex Data Mesh 的一致管理。 |
BigQuery 资产 | BigQuery 表或视图。 | 受数据网格管控的现有 Cortex BigQuery 对象。 |
BigQuery 资产注释 | 应用于特定 BigQuery 表或视图的元数据。这包括说明、访问权限政策以及与元数据资源的映射。 | 将元数据与 BigQuery 资产相关联,以实现发现和访问权限控制。 |
资源规范 (spec) | 定义元数据资源或 BigQuery 资产注释的 YAML 文件。 | 完整的资源规范集将待部署的数据网格配置编入代码。 |