您可以使用 Dataplex 构建数据网格架构。本指南介绍了如何使用 Dataplex 功能(例如数据湖、可用区和资产)构建数据网格。
数据网格是一种组织和技术方法,可在网域数据所有者之间分散数据所有权。这些所有者以标准方式将数据作为产品提供,并促进组织不同部分之间的通信,将数据集分布在不同位置。详细了解数据网格架构。
目标
在本指南中,您将使用 Dataplex 实体构建数据网格架构:
- 创建 Dataplex 湖,充当数据网格的网域。
- 向您的数据湖添加区域,以代表每个网域中的各个团队,并提供代管式数据合同。
- 挂接映射到 Cloud Storage 中存储的数据的资产。
费用
在本文档中,您将使用 Google Cloud 的以下收费组件:
您可使用价格计算器根据您的预计使用情况来估算费用。
完成本文档中描述的任务后,您可以通过删除所创建的资源来避免继续计费。如需了解详情,请参阅清理。
准备工作
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
启用 Dataplex API。
创建 Cloud Storage 存储桶
您需要 Cloud Storage 存储桶来存储数据网格的数据资产。
按照步骤创建 Cloud Storage 存储桶,然后执行以下操作:
- 为您的存储桶命名。
- 对于位置类型,选择区域,然后从下拉菜单中选择 us-central1(爱荷华)。
创建网域
在 Google Cloud 控制台中,转到 Dataplex 页面:
转到管理视图。
点击创建以创建新的数据湖,该数据湖将用作您的数据网格。
在显示名称字段中,输入
My data mesh
。对于区域,请选择
us-central1
。选择您之前创建和配置为关联的 Metastore 的 Dataproc Metastore 服务。
点击创建。
在数据湖中创建区域
通过创建 Dataplex 数据湖创建网域后,您可以使用可用区来托管该网域中的代管式数据合同和各个团队。可用区有两种类型:
原始可用区通常用于在 Cloud Storage 中存储来自外部来源的任何格式的数据。原始可用区对于需要进一步处理的数据才能供使用时非常有用。
精选区域适用于 Cloud Storage 中的结构化数据,结构化数据必须符合某些文件格式,并且采用与 Hive 兼容的目录布局进行整理。它们最适合用于随时可供分析的数据。
每个网域(例如 sales
、customers
、products
)至少应有一个原始可用区和一个精选可用区。
其他可用区用于管理团队之间的数据合同,或为给定网域中的团队提供更精细的细分。例如,产品网域中的产品目录管理。数据所有者能够管理其网域中的数据并对其进行访问。
在 Google Cloud 控制台中的 Dataplex 中,导航到管理视图。
点击您要添加区域的数据湖的名称 (
My data mesh
)。在可用区标签页中,点击
添加可用区。在显示名称字段中,输入
My sub domain
。Dataplex 会自动为您的区域生成 ID。注意:可用区名称将成为 BigQuery 数据集的名称。因此,在同一 Google Cloud 项目中托管的所有可用区都必须具有唯一 ID,即使这些可用区位于不同的数据湖中也是如此。
对于类型,选择原始可用区。
点击创建。
将资源附加到区域
将数据资源附加到可用区。数据资产(包含数据的存储资源)可以是 Cloud Storage 存储桶或 BigQuery 数据集。这是创建数据网格架构的最后一步。
在 Dataplex 管理视图中,点击您创建的数据湖 (
My data mesh
)。在可用区标签页中,点击要在其中添加资产的可用区 (
My sub domain
)。在资产标签页中,点击
添加资产点击添加素材资源。
在类型部分,选择 Cloud Storage 存储桶。
在显示名称字段中,输入
Data mesh asset
。Dataplex 会自动为您生成资产 ID。在存储分区字段中,点击浏览。
- 从列表中选择您的存储桶。
- 点击选择。
点击完成,然后点击继续。
点击继续接受默认的高级设置。
点击提交,将 Cloud Storage 存储桶作为数据资产添加到您的可用区。
清理
为避免因本教程中使用的资源导致您的 Google Cloud 帐号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。
删除项目
- 在 Google Cloud 控制台中,进入管理资源页面。
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击关闭以删除项目。
删除数据网格架构
在 Google Cloud 控制台中的 Dataplex 中,导航到管理视图。
对于要删除的数据湖,点击
查看更多,然后点击删除。输入
delete
确认操作,然后点击删除数据湖。