本指南介绍了如何使用
Google Cloud 控制台、gcloud CLI 或 lakes.create
API 方法。
您可以在支持 Dataplex 的任何区域中创建数据湖。
准备工作
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
访问权限控制
确保您已被授予预定义角色
roles/dataplex.admin
或roles/dataplex.editor
,以便您创建和管理数据湖。请按照 IAM 文档中的步骤 授予角色。如需将其他项目中的 Cloud Storage 存储桶附加到您的数据湖,请运行以下命令,为以下 Dataplex 服务账号授予对该存储桶的管理员角色:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
创建 Metastore
您可以通过将 Dataproc Metastore 服务实例与 Dataplex 数据湖相关联,在 Spark 查询中使用 Hive Metastore 访问 Dataplex 元数据。您需要有一个启用了 gRPC 的 Dataproc Metastore(版本 3.1.2 或更高版本),并将其与 Dataplex 数据湖相关联。
将 Dataproc Metastore 服务实例配置为公开 gRPC 端点(而不是默认的 Thrift Metastore 端点)。运行以下更新 API 请求:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
查看 gRPC 端点。运行以下命令:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
创建 Dataplex 数据湖
以下步骤展示了如何创建 Dataplex 湖。
控制台
前往 Google Cloud 控制台中的 Dataplex。
前往 Dataplex
前往管理视图。
点击
创建。输入显示名称。
系统会自动为您生成数据湖 ID。您可以根据需要提供自己的身份证件。请参阅资源命名惯例。
(可选)输入说明。
指定要在其中创建数据湖的区域。
对于在给定区域(例如
us-central1
)中创建的数据湖, 单区域 (us-central1
) 数据和多区域 (us multi-region
) 数据 具体取决于可用区设置。可选:为数据湖添加标签。
可选:在 Metastore 部分中,点击 Metastore 服务。 下拉菜单中,然后选择您在准备工作部分创建的服务。 部分。
点击创建。
gcloud
使用以下 gcloud preview dataplex lake create
命令创建
数据湖:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
替换以下内容:
LAKE
:新湖泊的名称。LOCATION
:表示 Google Cloud 区域。k1=v1,k2=v2,k3=v3
:使用的标签(如果有)。METASTORE_SERVICE
:Dataproc Metastore 服务(如果已创建)。
REST
按照 API 说明使用 API Explorer 创建数据湖。