レイクを作成する

このガイドでは、Google Cloud コンソール、gcloud CLI、または lakes.create API メソッドを使用して、Dataplex レイクを作成する方法について説明します。

Dataplex をサポートあらゆるするあらゆるリージョンにレイクを作成できます。

始める前に

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  3. Google Cloud プロジェクトで課金が有効になっていることを確認します

  4. Dataplex、Dataproc、Dataproc Metastore、Data Catalog、BigQuery、Cloud Storage。 API を有効にします。

    API を有効にする

  5. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  6. Google Cloud プロジェクトで課金が有効になっていることを確認します

  7. Dataplex、Dataproc、Dataproc Metastore、Data Catalog、BigQuery、Cloud Storage。 API を有効にします。

    API を有効にする

アクセス制御

  1. レイクを作成して管理できるように、事前定義ロール roles/dataplex.admin または roles/dataplex.editor が付与されていることを確認してください。ロールの付与に関する IAM ドキュメントの手順に従ってください。

  2. 別のプロジェクトの Cloud Storage バケットをレイクに接続するには、次のコマンドを実行して、バケットに対する管理者ロールを次の Dataplex サービス アカウントに付与します。

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

メタストアの作成

Spark クエリで Hive Metastore を使用して Dataplex メタデータにアクセスするには、Dataproc Metastore サービス インスタンスを Dataplex レイクに関連付けます。gRPC 対応の Dataproc Metastore(バージョン 3.1.2 以降)を Dataplex レイクに関連付ける必要があります。

  1. Dataproc Metastore サービスを作成します。

  2. Dataproc Metastore サービス インスタンスを構成して、(デフォルトの Thrift Metastore エンドポイントではなく)gRPC エンドポイントを公開します。次の更新 API リクエストを実行します。

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. gRPC エンドポイントを表示します。次のコマンドを実行します。

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Dataplex レイクの作成

次の手順では、Dataplex レイクを作成する方法を説明します。

コンソール

  1. Google Cloud コンソールで [Dataplex] に移動します。

    Dataplex に移動

  2. [管理] ビューに移動します。

  3. [作成] をクリックします。

  4. [表示名]を入力します。

  5. レイク ID が自動的に生成されます。必要に応じて、独自の ID を指定できます。リソースの命名規則をご覧ください。

  6. (省略可)説明を入力します。

  7. レイクを作成する [リージョン] を指定します。

    所与のリージョン(たとえば、us-central1)で作成されたレイクの場合、シングルリージョン(us-central1)データとマルチリージョン(us multi-region)データの両方をゾーン設定に応じてアタッチできます。

  8. 省略可:レイクにラベルを追加します。

  9. 省略可: [Metastore] セクションで、[Metastore service] プルダウンをクリックし、始める前にセクションで作成したサービスを選択します。

  10. [作成] をクリックします。

gcloud

次の gcloud preview dataplex lake create コマンドを使用してレイクを作成します。

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

以下を置き換えます。

  • LAKE: 新しいレイクの名前。
  • LOCATION: Google Cloud リージョンを指します。
  • k1=v1,k2=v2,k3=v3: 使用されるラベル(ある場合)。
  • METASTORE_SERVICE: Dataproc Metastore サービス(作成されている場合)。

REST

API Explorer を使用し、API の手順に従ってレイクを作成します。

次のステップ