您可以使用 Dataplex Universal Catalog 构建数据网格架构。本快速入门指南介绍了如何使用 Dataplex Universal Catalog 功能(例如数据湖、区域和资产)构建数据网格。
数据网格是一种组织和技术方法,用于在网域数据所有者之间分散数据所有权。这些所有者以标准方式提供数据作为产品,并促进组织不同部门之间的沟通,以便在不同位置分发数据集。详细了解数据网格架构。
目标
在本指南中,您将使用 Dataplex Universal Catalog 实体来构建数据网格架构:
- 创建一个 Dataplex Universal Catalog 数据湖,作为数据网格的网域。
- 向数据湖添加区域,以代表每个网域中的各个团队并提供代管式数据合同。
- 附加映射到 Cloud Storage 中存储的数据的资源。
费用
在本文档中,您将使用 Google Cloud的以下收费组件:
您可使用价格计算器根据您的预计使用情况来估算费用。
完成本文档中描述的任务后,您可以通过删除所创建的资源来避免继续计费。如需了解详情,请参阅清理。
准备工作
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
启用 Dataplex Universal Catalog API。
创建 Cloud Storage 存储桶
您需要一个 Cloud Storage 存储桶来存储数据网格的数据资产。
如需创建 Cloud Storage 存储桶,请按照创建 Cloud Storage 存储桶中的说明操作。执行此操作时,请注意以下事项:
- 指定存储桶的名称。
- 在位置类型部分,选择区域,然后从菜单中选择 us-central1(爱荷华)。
创建网域
在 Google Cloud 控制台中,前往 Dataplex Universal Catalog 页面。
导航到管理视图。
点击创建以创建新的数据湖,该数据湖将充当您的数据网格。
在显示名称字段中,输入
My data mesh
。对于区域,请选择
us-central1
。选择您之前创建并配置为关联 metastore 的 Dataproc Metastore 服务。
点击创建。
在数据湖中创建区域
通过创建 Dataplex Universal Catalog 数据湖来创建网域后,您可以使用区域在网域中托管代管式数据合同和各个团队。区域有两种类型:
原始区域通常用于存储 Cloud Storage 中来自外部来源的任何格式的数据。对于需要进一步处理才可使用的数据,原始区域非常有用。
精选区域用于存储 Cloud Storage 中的结构化数据,这些数据必须符合特定文件格式,并以与 Hive 兼容的目录布局进行整理。它们最适合用于已准备好供使用和分析的数据。
每个网域(例如 sales
、customers
、products
)都应至少有一个原始区域和一个精选区域。
其他区域用于管理团队之间的数据合同,或为给定网域内的团队提供更精细的细分。例如,产品网域内的库存管理。数据所有者能够管理其网域内的数据并访问这些数据。
在 Google Cloud 控制台中,前往 Dataplex Universal Catalog 管理视图。
点击要将区域添加到的数据湖的名称 (
My data mesh
)。在区域标签页中,点击
添加区域。在显示名称字段中,输入
My sub domain
。 Dataplex Universal Catalog 会自动生成区域的 ID。在类型部分,选择原始区域。
点击创建。
将资产附加到区域
将数据资产附加到区域。数据资产是包含数据的存储资源,可以是 Cloud Storage 存储桶或 BigQuery 数据集。这是创建数据网格架构的最后一步。
在 Dataplex Universal Catalog 管理视图中,点击您创建的数据湖 (
My data mesh
)。在区域标签页中,点击要将资产添加到的区域 (
My sub domain
)。在资产标签页中,点击
添加资产点击添加资产。
在类型部分,选择 Cloud Storage 存储桶。
在显示名称字段中,输入
Data mesh asset
。Dataplex Universal Catalog 会自动为您生成资产 ID。在存储桶字段中,点击浏览。
- 从列表中选择您的存储桶。
- 点击选择。
点击完成,然后点击继续。
点击继续以接受默认的高级设置。
点击提交。
清理
为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。
删除项目
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
删除数据网格架构
在 Google Cloud 控制台中,前往 Dataplex Universal Catalog 管理视图。
对于要删除的数据湖,点击
查看更多,然后点击删除。如需确认此操作,请输入
delete
,然后点击删除数据湖。