Dataplex レイクを作成する

このドキュメントでは、Dataplex レイクを作成する方法について説明します。Dataplex をサポートする任意のリージョンにレイクを作成できます。

始める前に

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

アクセス制御

  1. レイクを作成して管理するには、事前定義ロール roles/dataplex.admin または roles/dataplex.editor が付与されていることを確認してください。詳細については、単一のロールを付与するをご覧ください。

  2. 別のプロジェクトの Cloud Storage バケットをレイクに接続するには、次のコマンドを実行して、バケットに対する管理者ロールを次の Dataplex サービス アカウントに付与します。

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

メタストアを作成する

Spark クエリで Hive Metastore を使用して Dataplex メタデータにアクセスするには、Dataproc Metastore サービス インスタンスを Dataplex レイクに関連付けます。Dataplex レイクに gRPC 対応の Dataproc Metastore(バージョン 3.1.2 以降)が関連付けられている必要があります。

  1. Dataproc Metastore サービスを作成します。

  2. Dataproc Metastore サービス インスタンスを構成して、(デフォルトの Thrift Metastore エンドポイントではなく)gRPC エンドポイントを公開します。

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. gRPC エンドポイントを表示します。

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

レイクを作成する

Console

  1. Google Cloud コンソールで Dataplex に移動します。

    Dataplex に移動

  2. [管理] ビューに移動します。

  3. [作成] をクリックします。

  4. [表示名]を入力します。

  5. レイク ID は自動的に生成されます。必要に応じて、ご自身の ID を指定できます。リソースの命名規則をご覧ください。

  6. (省略可)説明を入力します。

  7. レイクを作成する [リージョン] を指定します。

    特定のリージョン(us-central1 など)で作成されたレイクの場合、ゾーン設定に応じてシングルリージョン(us-central1)データとマルチリージョン(us multi-region)データの両方をアタッチできます。

  8. 省略可:レイクにラベルを追加します。

  9. 省略可: [Metastore] セクションで、[Metastore service] メニューをクリックし、始める前にセクションで作成したサービスを選択します。

  10. [作成] をクリックします。

gcloud

レイクを作成するには、gcloud alpha dataplex lakes create コマンドを使用します。

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

次のように置き換えます。

  • LAKE: 新しいレイクの名前
  • LOCATION: Google Cloud リージョンを指します。
  • k1=v1,k2=v2,k3=v3: 使用されるラベル(存在する場合)
  • METASTORE_SERVICE: Dataproc Metastore サービス(作成されている場合)

REST

湖を作成するには、lakes.create メソッドを使用します。

次のステップ