このガイドでは、Google Cloud コンソール、gcloud CLI、または lakes.create
API メソッドを使用して、Dataplex レイクを作成する方法について説明します。
Dataplex をサポートあらゆるするあらゆるリージョンにレイクを作成できます。
始める前に
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex、Dataproc、Dataproc Metastore、Data Catalog、BigQuery、Cloud Storage。 APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex、Dataproc、Dataproc Metastore、Data Catalog、BigQuery、Cloud Storage。 APIs.
アクセス制御
レイクを作成して管理できるように、事前定義ロール
roles/dataplex.admin
またはroles/dataplex.editor
が付与されていることを確認してください。ロールの付与に関する IAM ドキュメントの手順に従ってください。別のプロジェクトの Cloud Storage バケットをレイクに接続するには、次のコマンドを実行して、バケットに対する管理者ロールを次の Dataplex サービス アカウントに付与します。
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
メタストアの作成
Spark クエリで Hive Metastore を使用して Dataplex メタデータにアクセスするには、Dataproc Metastore サービス インスタンスを Dataplex レイクに関連付けます。gRPC 対応の Dataproc Metastore(バージョン 3.1.2 以降)を Dataplex レイクに関連付ける必要があります。
Dataproc Metastore サービスを作成します。
Dataproc Metastore サービス インスタンスを構成して、(デフォルトの Thrift Metastore エンドポイントではなく)gRPC エンドポイントを公開します。次の更新 API リクエストを実行します。
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
gRPC エンドポイントを表示します。次のコマンドを実行します。
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Dataplex レイクの作成
次の手順では、Dataplex レイクを作成する方法を説明します。
コンソール
Google Cloud コンソールで [Dataplex] に移動します。
[管理] ビューに移動します。
[
作成] をクリックします。[表示名]を入力します。
レイク ID が自動的に生成されます。必要に応じて、独自の ID を指定できます。リソースの命名規則をご覧ください。
(省略可)説明を入力します。
レイクを作成する [リージョン] を指定します。
所与のリージョン(たとえば、
us-central1
)で作成されたレイクの場合、シングルリージョン(us-central1
)データとマルチリージョン(us multi-region
)データの両方をゾーン設定に応じてアタッチできます。省略可:レイクにラベルを追加します。
省略可: [Metastore] セクションで、[Metastore service] プルダウンをクリックし、始める前にセクションで作成したサービスを選択します。
[作成] をクリックします。
gcloud
次の gcloud preview dataplex lake create
コマンドを使用してレイクを作成します。
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
以下を置き換えます。
LAKE
: 新しいレイクの名前。LOCATION
: Google Cloud リージョンを指します。k1=v1,k2=v2,k3=v3
: 使用されるラベル(ある場合)。METASTORE_SERVICE
: Dataproc Metastore サービス(作成されている場合)。
REST
API Explorer を使用し、API の手順に従ってレイクを作成します。