构建数据网格


您可以使用 Dataplex 构建数据网格架构。本指南介绍如何使用 Dataplex 功能(例如数据湖、数据区域和数据资产)构建数据网格。

数据网格是一种组织和技术方法,用于在网域数据所有者之间分散数据所有权。这些所有者会以标准化的方式将数据作为产品提供,并促进组织不同部门之间的沟通,以便在不同位置分发数据集。详细了解数据网格架构

目标

在本指南中,您将使用 Dataplex 实体构建数据网格架构:

  • 创建一个 Dataplex 数据湖,用作数据网格的域名。
  • 向数据湖添加区域,以代表每个领域中的各个团队并提供受管理的数据协定。
  • 附加映射到存储在 Cloud Storage 中的数据的素材资源。

费用

在本文档中,您将使用 Google Cloud 的以下收费组件:

您可使用价格计算器根据您的预计使用情况来估算费用。 Google Cloud 新用户可能有资格申请免费试用

完成本文档中描述的任务后,您可以通过删除所创建的资源来避免继续计费。如需了解详情,请参阅清理

准备工作

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. 启用 Dataplex API。

    启用 Dataplex API

  4. 创建 Dataproc Metastore 服务

创建 Cloud Storage 存储桶

您需要一个 Cloud Storage 存储分区来存储数据网格的各项数据资产。

如需创建 Cloud Storage 存储分区,请按照创建 Cloud Storage 存储分区中的说明操作。执行此操作时,请注意以下事项:

  • 为存储分区命名。
  • 对于位置类型,请选择区域,然后从菜单中选择 us-central1(爱荷华)

创建网域

  1. 在 Google Cloud 控制台中,前往“Dataplex”页面。

    进入 Dataplex

  2. 前往管理视图。

  3. 点击创建,创建一个新的数据湖,该数据湖将用作数据网格。

  4. 显示名称字段中,输入 My data mesh

  5. 对于区域,请选择 us-central1

  6. 选择您之前创建并配置的 Dataproc Metastore 服务作为关联的 Metastore。

  7. 点击创建

在数据湖中创建区域

通过创建 Dataplex 数据湖创建网域后,您可以使用区域在网域中托管受管数据协定和各个团队。区域有两种类型:

  • 原始存储区通常用于在 Cloud Storage 中存储来自外部来源的任何格式的数据。原始存储区适用于需要进一步处理才可使用的数据。

  • 精选区域用于存储 Cloud Storage 中的结构化数据,这些数据必须符合特定文件格式,并以与 Hive 兼容的目录布局进行整理。它们最适用于可供使用和分析的数据。

每个网域(例如 salescustomersproducts)都应至少包含一个原始区域和一个经过管理的区域。

其他区域用于管理团队之间的数据协定,或为给定网域内的团队提供更精细的分解。例如,商品网域中的商品目录管理。数据所有者能够管理其网域中的数据并访问这些数据。

  1. 在 Google Cloud 控制台中,前往 Dataplex 的管理视图。

  2. 点击要为其添加区域的数据湖 (My data mesh) 的名称。

  3. 可用区标签页中,点击 Add Zone(添加可用区)。

  4. 显示名称字段中,输入 My sub domain。Dataplex 会自动为您的可用区生成 ID。

  5. 对于类型,请选择原始区域

  6. 点击创建

将素材资源附加到区域

将数据资产附加到您的区域。数据资产是指包含您数据的存储资源,可以是 Cloud Storage 存储分区或 BigQuery 数据集。这是创建数据网格架构的最后一步。

  1. 在 Dataplex 的管理视图中,点击您创建的数据湖 (My data mesh)。

  2. 区域标签页中,点击要将资产添加到的区域 (My sub domain)。

  3. 资产标签页中,依次点击 添加资产

  4. 点击添加资产

  5. 类型部分,选择 Cloud Storage 存储分区

  6. 显示名称字段中,输入 Data mesh asset。Dataplex 会自动为您生成资产 ID。

  7. 存储桶字段中,点击浏览

    1. 从列表中选择您的存储分区。
    2. 点击选择
  8. 点击完成,然后点击继续

  9. 点击继续接受默认的高级设置

  10. 点击提交

清理

为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。

删除项目

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

删除数据网格架构

  1. 在 Google Cloud 控制台中,前往 Dataplex 的管理视图。

  2. 找到要删除的湖泊,点击 展开,然后点击删除

  3. 如需确认操作,请输入 delete,然后点击删除数据湖

后续步骤