Dataplex のベスト プラクティス

このドキュメントでは、Dataplex を使用するためのガイダンスとベスト プラクティスについて説明します。

レイクのプロジェクトを選択する

レイクをホストするプロジェクトを選択する場合は、次の要素を考慮してください。

  • プロジェクトは、レイク内が宛先のデータと同じ VPC Service Controls の境界に属している必要があります。

  • レイクのサービス アカウントには、Cloud Storage バケットまたは BigQuery データセットに対する管理者権限が必要です。Dataplex は、Cloud Storage で検出されたテーブル用に BigQuery に外部テーブルを作成します。また、Dataplex は、利用可能な BigQuery テーブルのメタデータと、Cloud Storage バケットで検出されたテーブルを Dataproc Metastore で使用可能にします。Dataproc Metastore は、データレイク プロジェクト内に配置されています。

Cloud Storage の設定と制限事項

  • リージョン: Dataplex は、一部の Google Cloud リージョンでシングル リージョン バケットとマルチリージョン バケットをサポートしています。

  • ストレージ クラス: すべてのストレージ クラスの Cloud Storage バケットがサポートされます(標準、ニアライン、コールドライン、アーカイブ)。ニアライン、コールドライン、またはアーカイブのデータへのアクセスまたはスキャンには、追加のデータ取得費用が発生する場合があります。

  • バケット ACL: Dataplex は、均一なアクセス制御のみを持つ Cloud Storage バケットをサポートします。細分化されたアクセス制御はサポートされていません。

  • リクエスト元による支払い: リクエスト元による支払い機能が有効になっている Cloud Storage バケットはサポートされていません。

セキュリティと権限のガイダンス

Dataplex では、マネージド バケットとデータセットの管理サービス アカウントとして Dataplex サービス アカウントを追加する必要があります。

Dataplex によって、アナリストは多くのプロジェクトにわたって Cloud Storage バケットと BigQuery データセットにアクセスできます。このアクセスを有効にするには、Dataplex でこれらのプロジェクトへの管理制御権を持つ Dataplex サービス アカウントを追加する必要があります。

検出では、Dataplex は Dataproc Metastore サービス アカウントを Cloud Storage バケットに追加します。独自の Dataproc Metastore クラスタがある場合は、Dataplex レイクで Dataproc Metastore サービスを使用することをおすすめします(レイクを作成する場合に使用可能なオプション)。

レイクへのきめ細かいアクセス権を持つ Cloud Storage バケットを追加することを選択すると、Dataplex の権限がバケット内のすべてのオブジェクトに伝播されるため、Dataplex はレイクを通じてそのバケットへの完全アクセス権を提供します。きめ細かいアクセスが必要な場合は、バケット内のデータを複数のバケットに分割することをおすすめします。

次のステップ