您可以使用 Dataplex 构建数据网格架构。本指南介绍如何使用 Dataplex 功能(例如数据湖、数据区域和数据资产)构建数据网格。
数据网格是一种组织和技术方法,用于在网域数据所有者之间分散数据所有权。这些所有者会以标准化的方式将数据作为产品提供,并促进组织不同部门之间的沟通,以便在不同位置分发数据集。详细了解数据网格架构。
目标
在本指南中,您将使用 Dataplex 实体构建数据网格架构:
- 创建一个 Dataplex 数据湖,用作数据网格的域名。
- 向数据湖添加区域,以代表每个领域中的各个团队并提供受管理的数据协定。
- 附加映射到存储在 Cloud Storage 中的数据的素材资源。
费用
在本文档中,您将使用 Google Cloud 的以下收费组件:
您可使用价格计算器根据您的预计使用情况来估算费用。
完成本文档中描述的任务后,您可以通过删除所创建的资源来避免继续计费。如需了解详情,请参阅清理。
准备工作
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
启用 Dataplex API。
创建 Cloud Storage 存储桶
您需要一个 Cloud Storage 存储分区来存储数据网格的各项数据资产。
如需创建 Cloud Storage 存储分区,请按照创建 Cloud Storage 存储分区中的说明操作。执行此操作时,请注意以下事项:
- 为存储分区命名。
- 对于位置类型,请选择区域,然后从菜单中选择 us-central1(爱荷华)。
创建网域
在 Google Cloud 控制台中,前往“Dataplex”页面。
前往管理视图。
点击创建,创建一个新的数据湖,该数据湖将用作数据网格。
在显示名称字段中,输入
My data mesh
。对于区域,请选择
us-central1
。选择您之前创建并配置的 Dataproc Metastore 服务作为关联的 Metastore。
点击创建。
在数据湖中创建区域
通过创建 Dataplex 数据湖创建网域后,您可以使用区域在网域中托管受管数据协定和各个团队。区域有两种类型:
原始存储区通常用于在 Cloud Storage 中存储来自外部来源的任何格式的数据。原始存储区适用于需要进一步处理才可使用的数据。
精选区域用于存储 Cloud Storage 中的结构化数据,这些数据必须符合特定文件格式,并以与 Hive 兼容的目录布局进行整理。它们最适用于可供使用和分析的数据。
每个网域(例如 sales
、customers
、products
)都应至少包含一个原始区域和一个经过管理的区域。
其他区域用于管理团队之间的数据协定,或为给定网域内的团队提供更精细的分解。例如,商品网域中的商品目录管理。数据所有者能够管理其网域中的数据并访问这些数据。
在 Google Cloud 控制台中,前往 Dataplex 的管理视图。
点击要为其添加区域的数据湖 (
My data mesh
) 的名称。在可用区标签页中,点击
Add Zone(添加可用区)。在显示名称字段中,输入
My sub domain
。Dataplex 会自动为您的可用区生成 ID。对于类型,请选择原始区域。
点击创建。
将素材资源附加到区域
将数据资产附加到您的区域。数据资产是指包含您数据的存储资源,可以是 Cloud Storage 存储分区或 BigQuery 数据集。这是创建数据网格架构的最后一步。
在 Dataplex 的管理视图中,点击您创建的数据湖 (
My data mesh
)。在区域标签页中,点击要将资产添加到的区域 (
My sub domain
)。在资产标签页中,依次点击
添加资产点击添加资产。
在类型部分,选择 Cloud Storage 存储分区。
在显示名称字段中,输入
Data mesh asset
。Dataplex 会自动为您生成资产 ID。在存储桶字段中,点击浏览。
- 从列表中选择您的存储分区。
- 点击选择。
点击完成,然后点击继续。
点击继续接受默认的高级设置。
点击提交。
清理
为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。
删除项目
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
删除数据网格架构
在 Google Cloud 控制台中,前往 Dataplex 的管理视图。
找到要删除的湖泊,点击
展开,然后点击删除。如需确认操作,请输入
delete
,然后点击删除数据湖。