このドキュメントでは、Dataplex ゾーンと、Dataplex レイクにゾーンを追加する方法について説明します。
概要
Dataplex ゾーンは、Dataplex レイク内の名前付きエンティティです。それらは、非構造化データ、半構造化データ、構造化データの論理グループであり、Cloud Storage バケット、BigQuery データセット、BigQuery テーブルなどの複数のアセットで構成されます。
レイクには 1 つ以上のゾーンを含めることができます。ゾーンはただ 1 つのレイクの一部となることができますが、親プロジェクト外のプロジェクトの一部であるリソースを指すアセットを含むことができます。
Dataplex でゾーンの構成を選択できます。ゾーンには、未加工とキュレート済のゾーンの 2 種類があり、それらから選択できます。
未加工ゾーン
未加工ゾーンには、構造化データ、CSV ファイルや JSON ファイルなどの半構造化データ、外部ソースからの任意の形式の非構造化データが保存されます。未加工のゾーンは、変換を実行する前に元データをステージングするのに役立ちます。データは Cloud Storage バケットまたは BigQuery データセットに保存できます。
未加工ゾーンでは、読み取りと書き込みの権限について、バケットレベルまたはデータセット レベルの粒度がサポートされています。未加工ゾーンに保存できるデータの種類に制限はありません。
キュレート済のゾーン
キュレート済のゾーンには、構造化データが保存されます。データは Cloud Storage バケットまたは BigQuery データセットに保存できます。
Cloud Storage バケットでサポートされている形式には、Parquet、Avro、ORC などがあります。キュレートされたゾーンは、分析に使用する前に処理が必要なデータをステージングする場合や、分析の準備が整ったデータを提供する場合に便利です。
BigQuery テーブルの場合、適切に定義されたスキーマと Hive スタイルのパーティションが必要です。キュレート済みのゾーン内の特定のテーブルのスキーマを指定する場合、データはスキーマのドリフトなしでテーブルに定義されたスキーマに準拠する必要があります。つまり、データにはテーブルに定義されているスキーマとの互換性が必要であり、新しいパーティションにはテーブル スキーマと競合するスキーマがあってはならない、ということです。
キュレート済みのゾーンでは、読み取りと書き込みの権限について、Cloud Storage バケットレベルまたは BigQuery データセット レベルの粒度がサポートされています。
始める前に
レイクにゾーンを追加する前に、レイクが必要です。まだない場合は、レイクを作成します。
大部分の gcloud lake
コマンドでは、ロケーションを指定する必要があります。--location
パラメータを設定して、ロケーションを指定できます。
必要なロール
ゾーンを追加するために必要な権限を取得するには、プロジェクトに対する Dataplex 管理者 (roles/dataplex.admin
)IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織へのアクセスを管理するをご覧ください。
この事前定義ロールには、ゾーンの追加に必要な dataplex.lakes.create
権限が含まれています。
カスタムロールや他の事前定義ロールを使用して、この権限を取得することもできます。
ゾーンを追加する
レイクには複数のゾーンを追加できます。同時に追加できるのは 1 つのゾーンだけですが、ゾーンの作成中にもレイクをまだ使用できます。
既存のレイクにゾーンを追加する手順は次のとおりです。
Console
Google Cloud コンソールで、Dataplex に移動します。
[管理] ビューに移動します。
[管理] ビューで、ゾーンを追加するレイクの名前をクリックします。
[ゾーン] タブで、
[ゾーンを追加する] をクリックします。ゾーンの表示名を入力します。
[タイプ] メニューをクリックします。[未加工ゾーン] または [キュレートされたゾーン] を選択します。詳しくは、サポートされているゾーンのタイプをご覧ください。
(省略可)説明を入力します。
[データのロケーション] で、[リージョン] または [マルチリージョン] を選択します。選択したものは後で変更できません。単一リージョンとマルチリージョンのデータを同一のゾーン内で混在させることはできません。
省略可: メタデータ ディスカバリを有効にします。これによって、Dataplex はゾーン内のデータからメタデータを自動的にスキャンして抽出できます。
[検出設定] をクリックします。
[メタデータの検出を有効にする] が選択されていることを確認します。
省略可: [パターンを含める] で、検出スキャンに含めるファイルを一覧表示します。
省略可: [パターンを除外する] で、検出スキャンで除外するファイルを一覧表示します。含めるパターンと除外するパターンの両方を入力すると、除外するパターンが最初に適用されます。
[繰り返し] メニューをクリックし、頻度を選択します。[カスタム] を選択した場合は、[スケジュール] フィールドにジョブ スケジュールを入力します。それ以外の場合、[スケジュール] の値は自動的に入力されます。
[タイムゾーン] メニューをクリックして、タイムゾーンを選択します。
[作成] をクリックします。
REST
ゾーンを追加するには、lakes.zones.create メソッドを使用します。
ゾーンが作成されるまでに数分かかる場合があります。
ゾーンの作成が成功すると、ゾーンは自動的にアクティブ状態になります。それが失敗した場合、レイクは以前の状態にロールバックされます。
ゾーンを作成すると、Cloud Storage バケットと BigQuery データセットに保存されたデータを、ゾーンにアセットとしてマッピングできます。詳しくは、アセットを追加するをご覧ください。
次のステップ
- バケットを管理する方法を確認する。
- レイクを作成する方法を学ぶ。
- Cloud 監査ログの詳細を確認する。