このドキュメントでは、Dataplex を使用するためのガイダンスとベスト プラクティスについて説明します。
レイクのプロジェクトを選択する
レイクをホストするプロジェクトを選択する場合は、次の要素を考慮してください。
プロジェクトは、レイク内が宛先のデータと同じ VPC Service Controls の境界に属している必要があります。
レイクのサービス アカウントには、Cloud Storage バケットまたは BigQuery データセットに対する管理者権限が必要です。Dataplex は、Cloud Storage で検出されたテーブル用に BigQuery に外部テーブルを作成します。また、Dataplex は、利用可能な BigQuery テーブルのメタデータと、Cloud Storage バケットで検出されたテーブルを Dataproc Metastore で使用可能にします。Dataproc Metastore は、データレイク プロジェクト内に配置されています。
Cloud Storage の設定と制限事項
リージョン: Dataplex は、一部の Google Cloud リージョンでシングル リージョン バケットとマルチリージョン バケットをサポートしています。
ストレージ クラス: すべてのストレージ クラスの Cloud Storage バケットがサポートされます(標準、ニアライン、コールドライン、アーカイブ)。ニアライン、コールドライン、またはアーカイブのデータへのアクセスまたはスキャンには、追加のデータ取得費用が発生する場合があります。
バケット ACL: Dataplex は、均一なアクセス制御のみを持つ Cloud Storage バケットをサポートします。細分化されたアクセス制御はサポートされていません。
リクエスト元による支払い: リクエスト元による支払い機能が有効になっている Cloud Storage バケットはサポートされていません。
セキュリティと権限のガイダンス
Dataplex では、マネージド バケットとデータセットの管理サービス アカウントとして Dataplex サービス アカウントを追加する必要があります。
Dataplex によって、アナリストは多くのプロジェクトにわたって Cloud Storage バケットと BigQuery データセットにアクセスできます。このアクセスを有効にするには、Dataplex でこれらのプロジェクトへの管理制御権を持つ Dataplex サービス アカウントを追加する必要があります。
検出では、Dataplex は Dataproc Metastore サービス アカウントを Cloud Storage バケットに追加します。独自の Dataproc Metastore クラスタがある場合は、Dataplex レイクで Dataproc Metastore サービスを使用することをおすすめします(レイクを作成する場合に使用可能なオプション)。
レイクへのきめ細かいアクセス権を持つ Cloud Storage バケットを追加することを選択すると、Dataplex の権限がバケット内のすべてのオブジェクトに伝播されるため、Dataplex はレイクを通じてそのバケットへの完全アクセス権を提供します。きめ細かいアクセスが必要な場合は、バケット内のデータを複数のバケットに分割することをおすすめします。