快速入门:创建数据湖
本页面介绍如何在 Google Cloud 控制台中开始使用 Dataplex,包括创建数据湖、添加区域和附加资源的方法。
准备工作
- 登录您的 Google Cloud 帐号。如果您是 Google Cloud 新手,请创建一个帐号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
-
启用 Dataplex、Dataproc、Dataproc Metastore、Data Catalog、BigQuery 和 Cloud Storage API。
-
确保您拥有项目的以下一个或多个角色: roles/dataplex.admin, roles/dataplex.editor
检查角色
-
在 Google Cloud 控制台中,前往 IAM 页面。
转到 IAM - 选择项目。
-
在主账号列中,找到您的电子邮件地址所在的行。
如果您的电子邮件地址不在此列,则表示您没有任何角色。
- 在您的电子邮件地址所在的行对应的角色列中,检查角色列表是否包含所需的角色。
授予角色
-
在 Google Cloud 控制台中,前往 IAM 页面。
转到 IAM - 选择项目。
- 点击 授予访问权限。
- 在新的主帐号字段中,输入您的电子邮件地址。
- 在选择角色列表中,选择一个角色。
- 如需授予其他角色,请点击 添加其他角色,然后添加其他各个角色。
- 点击 Save(保存)。
-
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
-
启用 Dataplex、Dataproc、Dataproc Metastore、Data Catalog、BigQuery 和 Cloud Storage API。
-
确保您拥有项目的以下一个或多个角色: roles/dataplex.admin, roles/dataplex.editor
检查角色
-
在 Google Cloud 控制台中,前往 IAM 页面。
转到 IAM - 选择项目。
-
在主账号列中,找到您的电子邮件地址所在的行。
如果您的电子邮件地址不在此列,则表示您没有任何角色。
- 在您的电子邮件地址所在的行对应的角色列中,检查角色列表是否包含所需的角色。
授予角色
-
在 Google Cloud 控制台中,前往 IAM 页面。
转到 IAM - 选择项目。
- 点击 授予访问权限。
- 在新的主帐号字段中,输入您的电子邮件地址。
- 在选择角色列表中,选择一个角色。
- 如需授予其他角色,请点击 添加其他角色,然后添加其他各个角色。
- 点击 Save(保存)。
-
- 创建 Cloud Storage 存储桶:
创建数据湖
以下步骤介绍了如何使用 Google Cloud 控制台创建数据湖。
转到 Google Cloud 控制台中的 Dataplex。
转到管理视图。
点击
创建。输入显示名称。
系统会自动为您生成数据湖 ID。
指定要在其中创建数据湖的区域。
对于在给定区域(例如
us-central1
)中创建的数据湖,单区域 (us-central1
) 数据和多区域 (us multi-region
) 数据都可以附加,具体取决于可用区设置。点击创建。
向您的数据湖添加区域
创建数据湖后,您可以向数据湖添加区域。区域是非结构化数据和结构化数据的逻辑分组。
在管理视图中,点击要为其添加区域的湖的名称。
点击
添加区域。为您的区域输入显示名称。
点击类型下拉菜单。选择 Raw Zone(原始可用区)或 Cuated Zone。详细了解区域类型。
在数据位置下,选择区域级或多区域。选择后便无法更改。单区域和多区域数据不能在同一个可用区中混合使用。
点击创建。
创建区域可能需要几分钟的时间。
附加素材资源
数据可以存储在 Cloud Storage 存储分区或 BigQuery 数据集中,并可以作为资源附加到 Dataplex 数据湖内的数据可用区。
请按照以下步骤附加您之前创建的 Cloud Storage 存储桶作为资产。
在管理视图中,点击要将 Cloud Storage 存储桶附加到的数据湖的名称。
在区域标签页上,点击要添加资产的区域。
在 Assets 标签页中,点击
Add Assets。点击添加素材资源。
在类型下,选择存储桶。
在显示名称下,输入资产的名称。
在存储分区字段中,点击浏览。如果您有 Cloud Storage 存储桶,请找到该存储桶并点击选择。如果您没有 Cloud Storage 存储桶,可以点击
按钮创建一个。输入存储桶的唯一名称。点击继续。
选择位置类型。点击继续。
为数据选择一个默认存储类别。点击继续。
选择访问权限控制级别。点击继续。
选择数据保护选项或无。点击继续。
点击创建。
点击选择
点击完成。
点击继续。
在发现设置下,选择继承以从可用区级别继承发现设置。
点击继续。
在添加素材资源下方,点击提交。
等待素材资源创建完成。
清理
为避免因本页中使用的资源导致您的 Google Cloud 帐号产生费用,请按照以下步骤操作。
- 在 Google Cloud 控制台中,进入管理资源页面。
- 如果您打算删除的项目已附加到某个组织,请展开名称列中的组织列表。
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击关闭以删除项目。
或者,您也可以删除本教程中使用的资源。除非数据湖中的所有数据可用区资源均已删除,否则无法删除数据湖。同样,除非数据资源下的所有资源资源均已删除,否则无法删除数据可用区:
分离存储桶
以下步骤说明了如何分离您创建的 Dataplex 资产。
转到 Google Cloud 控制台中的 Dataplex。
在管理视图中,点击您创建的数据湖的名称。
在可用区标签页中,点击您创建的可用区的名称。
在资产标签页中,通过选中存储桶名称左侧的复选框来选择要分离的资产。
点击删除资产。
点击 Delete 以确认分离。
删除可用区
以下步骤展示了如何删除您创建的 Dataplex 可用区。
转到 Google Cloud 控制台中的 Dataplex。
在管理视图中,点击您创建的数据湖。
在可用区标签页上,通过选中数据可用区名称左侧的复选框来选择要删除的可用区。
点击删除区域。
再次点击删除,确认删除该规则。
删除数据湖
以下步骤展示了如何删除您创建的 Dataplex 数据湖。
转到 Google Cloud 控制台中的 Dataplex。
在管理视图中,点击您创建的数据湖。
点击页面顶部的删除。
在文本框中输入“delete”以确认删除。
点击删除数据湖以确认删除。
后续步骤
创建数据湖、可用区和资产后,您可以:
- 将数据整理到各个数据湖和区域。
- 确保您的数据湖安全无虞。
- 使用 Google Cloud 控制台查看发现的元数据。
- 使用 API 查看发现的元数据。