创建数据湖

本指南介绍了如何使用 Google Cloud 控制台、gcloud CLI 或 lakes.create API 方法。

您可以在支持 Dataplex 的任何区域中创建数据湖。

准备工作

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

访问权限控制

  1. 确保您已被授予预定义角色 roles/dataplex.adminroles/dataplex.editor,以便您创建和管理数据湖。请按照 IAM 文档中的步骤 授予角色

  2. 如需将其他项目中的 Cloud Storage 存储桶附加到您的数据湖,请运行以下命令,为以下 Dataplex 服务账号授予对该存储桶的管理员角色:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

创建 Metastore

您可以通过将 Dataproc Metastore 服务实例与 Dataplex 数据湖相关联,在 Spark 查询中使用 Hive Metastore 访问 Dataplex 元数据。您需要有一个启用了 gRPC 的 Dataproc Metastore(版本 3.1.2 或更高版本),并将其与 Dataplex 数据湖相关联。

  1. 创建 Dataproc Metastore 服务

  2. 将 Dataproc Metastore 服务实例配置为公开 gRPC 端点(而不是默认的 Thrift Metastore 端点)。运行以下更新 API 请求:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. 查看 gRPC 端点。运行以下命令:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

创建 Dataplex 数据湖

以下步骤展示了如何创建 Dataplex 湖。

控制台

  1. 前往 Google Cloud 控制台中的 Dataplex。

    前往 Dataplex

  2. 前往管理视图。

  3. 点击 创建

  4. 输入显示名称

  5. 系统会自动为您生成数据湖 ID。您可以根据需要提供自己的身份证件。请参阅资源命名惯例

  6. (可选)输入说明

  7. 指定要在其中创建数据湖的区域

    对于在给定区域(例如 us-central1)中创建的数据湖, 单区域 (us-central1) 数据和多区域 (us multi-region) 数据 具体取决于可用区设置。

  8. 可选:为数据湖添加标签。

  9. 可选:在 Metastore 部分中,点击 Metastore 服务。 下拉菜单中,然后选择您在准备工作部分创建的服务。 部分。

  10. 点击创建

gcloud

使用以下 gcloud preview dataplex lake create 命令创建 数据湖:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

替换以下内容:

  • LAKE:新湖泊的名称。
  • LOCATION:表示 Google Cloud 区域。
  • k1=v1,k2=v2,k3=v3:使用的标签(如果有)。
  • METASTORE_SERVICE:Dataproc Metastore 服务(如果已创建)。

REST

按照 API 说明使用 API Explorer 创建数据湖

后续步骤