ゾーンを追加する

このドキュメントでは、Dataplex Universal Catalog ゾーンと、Dataplex Universal Catalog レイクにゾーンを追加する方法について説明します。

概要

Dataplex Universal Catalog ゾーンは、Dataplex Universal Catalog レイク内の名前付きエンティティです。これは、非構造化データ、半構造化データ、構造化データの論理グループであり、Cloud Storage バケット、BigQuery データセット、BigQuery テーブルなどの複数のアセットで構成されます。

レイクには 1 つ以上のゾーンを含めることができます。ゾーンはただ 1 つのレイクの一部となることができますが、親プロジェクト外のプロジェクトの一部であるリソースを指すアセットを含む場合があります。

Dataplex Universal Catalog でゾーンの構成を選択できます。ゾーンには、未加工ゾーンとキュレートされたゾーンの 2 種類があり、それらから選択できます。

未加工ゾーン

未加工ゾーンには、構造化データ、半構造化データ（CSV ファイルや JSON ファイルなど）、外部ソースからの任意の形式の非構造化データが保存されます。未加工のゾーンは、任意の変換の実行前に元データをステージングするのに役立ちます。データは Cloud Storage バケットまたは BigQuery データセットに保存できます。

未加工ゾーンでは、読み取りと書き込みの権限について、バケットレベルまたはデータセットレベルの粒度がサポートされています。未加工ゾーンに保存できるデータの種類に制限はありません。

キュレートされたゾーン

キュレートされたゾーンには、構造化データが保存されます。データは Cloud Storage バケットまたは BigQuery データセットに保存できます。

Cloud Storage バケットでサポートされている形式には、Parquet、Avro、ORC などがあります。キュレートされたゾーンは、分析に使用する前に処理が必要なデータをステージングする場合や、分析の準備が整ったデータを提供する場合に便利です。

BigQuery テーブルの場合、適切に定義されたスキーマと Hive スタイルのパーティションが必要です。キュレートされたゾーン内の所与のテーブルのスキーマを指定する場合、データはスキーマのドリフトなしでテーブルに定義されたスキーマに準拠する必要があります。つまり、データにはテーブルに定義されているスキーマとの互換性が必要であり、新しいパーティションにはテーブルスキーマと競合するスキーマがあってはならない、ということです。

キュレートされたゾーンでは、読み取りと書き込みの権限について、Cloud Storage バケットレベルまたは BigQuery データセットレベルの粒度がサポートされています。

始める前に

レイクにゾーンを追加する前に、レイクが必要です。まだない場合は、レイクを作成します。

大部分の gcloud lake コマンドでは、ロケーションを指定する必要があります。--location パラメータを設定して、ロケーションを指定できます。

必要なロール

ゾーンを追加するために必要な権限を取得するには、プロジェクトに対する Dataplex 管理者（roles/dataplex.admin）IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

この事前定義ロールには、ゾーンを追加するために必要な dataplex.lakes.create 権限が含まれています。

カスタムロールや他の事前定義ロールを使用して、この権限を取得することもできます。