创建数据湖

本指南介绍如何使用 Google Cloud 控制台、gcloud CLI 或 lakes.create API 方法创建 Dataplex 数据湖。

您可以在支持 Dataplex 的任何区域中创建数据湖。

准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. 启用 Dataplex、Dataproc、Dataproc Metastore、Data Catalog、BigQuery 和 Cloud Storage。 API。

    启用 API

  5. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  6. 确保您的 Google Cloud 项目已启用结算功能

  7. 启用 Dataplex、Dataproc、Dataproc Metastore、Data Catalog、BigQuery 和 Cloud Storage。 API。

    启用 API

访问权限控制

  1. 请确保您已被授予预定义角色 roles/dataplex.adminroles/dataplex.editor,以便创建和管理数据湖。按照 IAM 文档中有关授予角色的步骤进行操作。

  2. 如需将其他项目中的 Cloud Storage 存储桶关联到您的数据湖,请运行以下命令,为以下 Dataplex 服务帐号授予对该存储桶的管理员角色:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

创建 Metastore

您可以通过将 Dataproc Metastore 服务实例与您的 Dataplex 数据湖相关联,在 Spark 查询中使用 Hive Metastore 访问 Dataplex 元数据。您需要有一个启用了 gRPC 的 Dataproc Metastore(版本 3.1.2 或更高版本)与 Dataplex 数据湖相关联。

  1. 创建 Dataproc Metastore 服务

  2. 配置 Dataproc Metastore 服务实例以公开 gRPC 端点(而不是默认的 Thrift Metastore 端点)。请运行以下更新 API 请求:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. 查看 gRPC 端点。运行以下命令:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

创建 Dataplex 数据湖

以下步骤介绍了如何创建 Dataplex 数据湖。

控制台

  1. 前往 Google Cloud 控制台中的 Dataplex。

    前往 Dataplex

  2. 进入管理视图。

  3. 点击 创建

  4. 输入显示名称

  5. 系统会自动为您生成数据湖 ID。如果您愿意,也可以提供自己的 ID。请参阅资源命名惯例

  6. (可选)输入说明

  7. 指定要在其中创建数据湖的区域

    对于在给定区域(例如 us-central1)中创建的数据湖,可以根据区域设置附加单区域 (us-central1) 数据和多区域 (us multi-region) 数据。

  8. 可选:为数据湖添加标签。

  9. 可选:在 Metastore 部分,点击 Metastore service 下拉列表,然后选择您在准备工作部分创建的服务。

  10. 点击创建

gcloud

使用以下 gcloud preview dataplex lake create 命令创建数据湖:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

替换以下内容:

  • LAKE:新数据湖的名称。
  • LOCATION:表示 Google Cloud 区域。
  • k1=v1,k2=v2,k3=v3:使用的标签(如果有)。
  • METASTORE_SERVICE:Dataproc Metastore 服务(如果已创建)。

REST

按照 API 说明使用 API Explorer 创建数据湖

后续步骤