快速入门:创建数据湖

本页面介绍了如何在 Google Cloud 控制台 - 逐步介绍如何创建数据湖、添加区域以及 附加资源。

准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  5. Make sure that you have the following role or roles on the project: roles/dataplex.admin, roles/dataplex.editor

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      前往 IAM
    2. 选择项目。
    3. 点击 授予访问权限
    4. 新的主账号字段中,输入您的用户标识符。 这通常是 Google 账号的电子邮件地址。

    5. 选择角色列表中,选择一个角色。
    6. 如需授予其他角色,请点击 添加其他角色,然后添加其他各个角色。
    7. 点击保存
    8. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    9. 确保您的 Google Cloud 项目已启用结算功能

    10. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage APIs.

      Enable the APIs

    11. Make sure that you have the following role or roles on the project: roles/dataplex.admin, roles/dataplex.editor

      Check for the roles

      1. In the Google Cloud console, go to the IAM page.

        Go to IAM
      2. Select the project.
      3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

      4. For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.

      Grant the roles

      1. In the Google Cloud console, go to the IAM page.

        前往 IAM
      2. 选择项目。
      3. 点击 授予访问权限
      4. 新的主账号字段中,输入您的用户标识符。 这通常是 Google 账号的电子邮件地址。

      5. 选择角色列表中,选择一个角色。
      6. 如需授予其他角色,请点击 添加其他角色,然后添加其他各个角色。
      7. 点击保存
      8. 创建 Cloud Storage 存储桶:
        1. In the Google Cloud console, go to the Cloud Storage Buckets page.

          Go to Buckets page

        2. Click Create bucket.
        3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
          • For Name your bucket, enter a unique bucket name. Don't include sensitive information in the bucket name, because the bucket namespace is global and publicly visible.
          • For Choose where to store your data, do the following:
            • Select a Location type option.
            • Select a Location option.
          • For Choose a default storage class for your data, select the following: Standard.
          • For Choose how to control access to objects, select an Access control option.
          • For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
        4. Click Create.

创建数据湖

以下步骤展示了如何使用 Google Cloud 控制台创建数据湖。

  1. 前往 Google Cloud 控制台中的 Dataplex。

    进入 Dataplex

  2. 进入管理数据视图。

  3. 点击 创建

  4. 输入显示名称

  5. 数据湖 ID 是系统自动为您生成的。

  6. 指定要在其中创建数据湖的区域

    对于在给定区域(例如 us-central1)中创建的数据湖,单区域 (us-central1) 数据和多区域 (us multi-region) 数据都可以附加,具体取决于区域设置。

  7. 点击创建

向数据湖添加区域

数据湖创建完成后,就可以向其添加区域了。区域是非结构化数据和结构化数据的逻辑分组。

  1. 管理视图中,点击要向其添加地区的数据湖的名称。

  2. 点击 添加区域

  3. 输入您的地区的显示名称

  4. 点击类型下拉菜单。选择 Raw Zone(原始区)或 Curated Zone(精选区)。详细了解可用区的类型

  5. 数据位置下,选择区域级多区域级。 您选择的选项日后无法更改。单区域和多区域数据 不能在同一可用区混用

  6. 点击创建

创建区域可能需要几分钟时间。

附加资产

数据可以存储在 Cloud Storage 存储分区或 BigQuery 中 数据集,并且可以作为资产附加到 Dataplex 数据湖。

请按照以下步骤附加您创建的 Cloud Storage 存储桶 作为资源。

  1. 管理视图中,点击要将 Cloud Storage 存储桶附加到的数据湖的名称。

  2. 区域标签页上,点击要将资产添加到的区域。

  3. 资产标签页上,点击 添加资产

  4. 点击添加资产

  5. 类型下,选择存储桶

  6. 显示名称下,输入资源的名称。

  7. 存储桶字段中,点击浏览。如果您有 Cloud Storage 存储桶,请找到该存储桶,然后点击选择。如果您没有 Cloud Storage 存储桶,可以点击 按钮创建一个。

    1. 为存储桶输入一个唯一名称。点击继续

    2. 选择位置类型。点击继续

    3. 为数据选择一个默认存储类别。点击继续

    4. 选择一个访问控制级别。点击继续

    5. 选择数据保护选项或。点击继续

    6. 点击创建

    7. 点击选择

  8. 点击完成

  9. 点击继续

  10. 发现设置下,选择继承以继承区域级别的发现设置

  11. 点击继续

  12. 添加素材资源下,点击提交

等待素材资源创建完成。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. If the project that you plan to delete is attached to an organization, expand the Organization list in the Name column.
  3. In the project list, select the project that you want to delete, and then click Delete.
  4. In the dialog, type the project ID, and then click Shut down to delete the project.

或者,您也可以删除本教程中使用的资源。除非您已删除数据湖下的所有数据区域资源,否则无法删除数据湖。同样, 除非已删除数据区域中的所有资产资源,否则无法删除数据区域:

分离存储桶

以下步骤展示了如何分离 创建。

  1. 在 Google Cloud 控制台中,前往 Dataplex。

    进入 Dataplex

  2. 管理视图中,点击您创建的数据湖的名称。

  3. 区域标签页中,点击您创建的区域的名称。

  4. 资产标签页中,选中要解除关联的资产,方法是选中存储桶名称左侧的复选框。

  5. 点击删除资产

  6. 点击删除以确认解除关联。

删除区域

以下步骤说明了如何删除 创建。

  1. 在 Google Cloud 控制台中,前往 Dataplex。

    进入 Dataplex

  2. 管理视图中,点击您创建的数据湖。

  3. 区域标签页上,选中数据区域名称左侧的复选框,以选择要删除的区域。

  4. 点击删除区域

  5. 再次点击删除,确认删除该规则。

删除数据湖

以下步骤说明了如何删除您当前使用的 Dataplex 数据湖。 创建。

  1. 在 Google Cloud 控制台中,前往 Dataplex。

    进入 Dataplex

  2. 管理视图中,点击您创建的数据湖。

  3. 点击页面顶部的删除

  4. 在文本框中输入“delete”以确认删除。

  5. 点击删除数据湖以确认删除。

后续步骤

创建数据湖、区域和资产后,您可以执行以下操作: