このページでは、ゾーンを紹介し、Dataplex レイクにゾーンを追加する方法について説明します。
Dataplex ゾーンのコンセプト
データゾーンは、Dataplex レイク内の名前付きエンティティです。それらは、非構造化データ、半構造化データ、構造化データの論理グループであり、Cloud Storage バケット、BigQuery データセット、BigQuery テーブルなどの複数のアセットで構成されます。
レイクには 1 つ以上のゾーンを含めることができます。ゾーンはただ 1 つのレイクの一部となることができますが、親プロジェクト外のプロジェクトの一部であるリソースを指すアセットを含むことができます。
Dataplex でゾーンの構成を選択できます。ゾーンには、未加工とキュレート済のゾーンの 2 種類があり、それらから選択できます。
未加工のゾーン
未加工ゾーンには、構造化データ、半構造化データ(CSV ファイルや JSON ファイルなど)、外部ソースからの任意の形式の非構造化データが保存されます。これは、任意の変換の実行前に元データをステージングするのに役立ちます。データは、Cloud Storage バケットまたは BigQuery データセットに保存できます。
未加工ゾーンでは、読み取りと書き込みの権限について、バケットレベルまたはデータセット レベルの粒度がサポートされています。詳細については、IAM とアクセス制御をご覧ください。
未加工ゾーンに保存できるデータの種類に制限はありません。
キュレート済のゾーン
キュレート済のゾーンには、構造化データが保存されます。データは、Cloud Storage バケットまたは BigQuery データセットに保存できます。
Cloud Storage バケットでサポートされている形式には、Parquet、Avro、ORC などがあります。これは、分析に使用する前に処理が必要なデータをステージングする場合や、分析の準備が整ったデータを提供する場合に便利です。
BigQuery テーブルの場合、適切に定義されたスキーマと Hive スタイルのパーティションが必要です。キュレート済のゾーン内の所与のテーブルのスキーマを指定する場合、データはスキーマのドリフトなしでテーブルに定義されたスキーマに準拠する必要があります。
つまり、データにはテーブルに定義されているスキーマとの互換性が必要であり、新しいパーティションにはテーブル スキーマと競合するスキーマがあってはならない、ということです。
キュレート済のゾーンでは、読み取りと書き込みの権限について、Cloud Storage バケットレベルまたは BigQuery データセット レベルの粒度がサポートされています。詳しくは、IAM によるアクセス制御をご覧ください。
始める前に
レイクにゾーンを追加するには、レイクが必要です。まだない場合は、レイクを作成します。
大部分の gcloud lake
コマンドでは、ロケーションを指定する必要があります。--location
パラメータを設定して、ロケーションを指定できます。
アクセス制御
- ゾーンを追加するには、
dataplex.lakes.create
IAM 権限を含む IAM ロールを付与されている必要があります。Dataplex 固有のロールroles/dataplex.admin
を使用して、追加権限を付与できます。
詳しくは、IAM による Dataplex アクセス制御をご覧ください。
ゾーンを追加する
新しいゾーンを作成して既存のレイクに追加するには、Dataplex API メソッド lakes.zones.create
を発行するか、Google Cloud コンソールでゾーンを追加します。
複数のゾーンをレイクに追加できます。同時に追加できるのは 1 つのゾーンだけですが、ゾーンの作成中にもレイクをまだ使用できます。
コンソール
Google Cloud コンソールで、[Dataplex] に移動します。
[管理] ビューに移動します。
[管理] ビューで、ゾーンを追加するレイクの名前をクリックします。
[ゾーン] タブで、
[ゾーンを追加する] をクリックします。ゾーンの表示名を入力します。
[タイプ] プルダウンをクリックします。[Raw Zone] または [Curated Zone] を選択します。詳しくは、サポートされているゾーンタイプをご覧ください。
(省略可)説明を入力します。
[データのロケーション] で、[リージョン] または [マルチリージョン] を選択します。選択した内容は後で変更できません。単一リージョンとマルチリージョンのデータを同一のゾーン内で混在させることはできません。
省略可: メタデータ ディスカバリを有効にします。これによって、Dataplex はゾーン内のデータからメタデータを自動的にスキャンして抽出できます。
[検出の設定] をクリックします。
[メタデータ検出を有効にする] が選択されていることを確認します。
省略可: [パターンを含める] で、検出スキャンに含めるファイルを一覧表示します。
省略可: [パターンを除外する] で、検出スキャンで除外するファイルを一覧表示します。含めるパターンと除外するパターンの両方を入力すると、除外するパターンが最初に適用されます。
[繰り返し] プルダウンをクリックして、頻度を選択します。
[タイムゾーン] プルダウンをクリックし、タイムゾーンを選択します。
[繰り返し] で [カスタム] を選択した場合は、[スケジュール] でジョブ スケジュールを入力します。それ以外の場合は、[スケジュール] の値が自動的に入力されます。
[作成] をクリックします。
ゾーンが作成されるまでに数分かかることがあります。
REST
API Explorer を使用して、API の手順に従ってゾーンを追加します。
ゾーンの作成に成功すると、ゾーンは自動的にアクティブ状態になります。それが失敗した場合、レイクは以前の状態にロールバックされます。
ゾーンを作成すると、Cloud Storage バケットと BigQuery データセットに保存されたデータを、ゾーンのアセットとしてマッピングできます。
次のステップ
- バケットの管理の詳細を確認する。
- レイクの作成の詳細を確認する。
- Cloud 監査ログの詳細を確認する。