构建数据网格


您可以使用 Dataplex 构建数据网格架构。本指南介绍了如何使用 Dataplex 功能(例如数据湖、可用区和资产)构建数据网格。

数据网格是一种组织和技术方法,可在网域数据所有者之间分散数据所有权。这些所有者以标准方式将数据作为产品提供,并促进组织不同部分之间的通信,将数据集分布在不同位置。详细了解数据网格架构

目标

在本指南中,您将使用 Dataplex 实体构建数据网格架构:

  • 创建 Dataplex 湖,充当数据网格的网域。
  • 向您的数据湖添加区域,以代表每个网域中的各个团队,并提供代管式数据合同。
  • 挂接映射到 Cloud Storage 中存储的数据的资产。

费用

在本文档中,您将使用 Google Cloud 的以下收费组件:

您可使用价格计算器根据您的预计使用情况来估算费用。 Google Cloud 新用户可能有资格申请免费试用

完成本文档中描述的任务后,您可以通过删除所创建的资源来避免继续计费。如需了解详情,请参阅清理

准备工作

  1. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  2. 确保您的 Google Cloud 项目已启用结算功能

  3. 启用 Dataplex API。

    启用 Dataplex API

  4. 创建 Dataproc Metastore 服务

创建 Cloud Storage 存储桶

您需要 Cloud Storage 存储桶来存储数据网格的数据资产。

按照步骤创建 Cloud Storage 存储桶,然后执行以下操作:

  • 为您的存储桶命名。
  • 对于位置类型,选择区域,然后从下拉菜单中选择 us-central1(爱荷华)

创建网域

  1. 在 Google Cloud 控制台中,转到 Dataplex 页面:

    转到 Dataplex

  2. 转到管理视图。

  3. 点击创建以创建新的数据湖,该数据湖将用作您的数据网格。

  4. 显示名称字段中,输入 My data mesh

  5. 对于区域,请选择 us-central1

  6. 选择您之前创建和配置为关联的 Metastore 的 Dataproc Metastore 服务。

  7. 点击创建

在数据湖中创建区域

通过创建 Dataplex 数据湖创建网域后,您可以使用可用区来托管该网域中的代管式数据合同和各个团队。可用区有两种类型:

  • 原始可用区通常用于在 Cloud Storage 中存储来自外部来源的任何格式的数据。原始可用区对于需要进一步处理的数据才能供使用时非常有用。

  • 精选区域适用于 Cloud Storage 中的结构化数据,结构化数据必须符合某些文件格式,并且采用与 Hive 兼容的目录布局进行整理。它们最适合用于随时可供分析的数据。

每个网域(例如 salescustomersproducts)至少应有一个原始可用区和一个精选可用区。

其他可用区用于管理团队之间的数据合同,或为给定网域中的团队提供更精细的细分。例如,产品网域中的产品目录管理。数据所有者能够管理其网域中的数据并对其进行访问。

  1. 在 Google Cloud 控制台中的 Dataplex 中,导航到管理视图。

  2. 点击您要添加区域的数据湖的名称 (My data mesh)。

  3. 可用区标签页中,点击 添加可用区

  4. 显示名称字段中,输入 My sub domain。Dataplex 会自动为您的区域生成 ID。

    注意:可用区名称将成为 BigQuery 数据集的名称。因此,在同一 Google Cloud 项目中托管的所有可用区都必须具有唯一 ID,即使这些可用区位于不同的数据湖中也是如此。

  5. 对于类型,选择原始可用区

  6. 点击创建

将资源附加到区域

将数据资源附加到可用区。数据资产(包含数据的存储资源)可以是 Cloud Storage 存储桶或 BigQuery 数据集。这是创建数据网格架构的最后一步。

  1. 在 Dataplex 管理视图中,点击您创建的数据湖 (My data mesh)。

  2. 可用区标签页中,点击要在其中添加资产的可用区 (My sub domain)。

  3. 资产标签页中,点击 添加资产

  4. 点击添加素材资源

  5. 类型部分,选择 Cloud Storage 存储桶

  6. 显示名称字段中,输入 Data mesh asset。Dataplex 会自动为您生成资产 ID。

  7. 存储分区字段中,点击浏览

    1. 从列表中选择您的存储桶。
    2. 点击选择
  8. 点击完成,然后点击继续

  9. 点击继续接受默认的高级设置

  10. 点击提交,将 Cloud Storage 存储桶作为数据资产添加到您的可用区。

清理

为避免因本教程中使用的资源导致您的 Google Cloud 帐号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。

删除项目

  1. 在 Google Cloud 控制台中,进入管理资源页面。

    转到“管理资源”

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

删除数据网格架构

  1. 在 Google Cloud 控制台中的 Dataplex 中,导航到管理视图。

  2. 对于要删除的数据湖,点击 查看更多,然后点击删除

  3. 输入 delete 确认操作,然后点击删除数据湖

后续步骤