ゾーンを追加する

このページでは、ゾーンを紹介し、Dataplex レイクにゾーンを追加する方法について説明します。

Dataplex ゾーンのコンセプト

データゾーンは、Dataplex レイク内の名前付きエンティティです。それらは、非構造化データ、半構造化データ、構造化データの論理グループであり、Cloud Storage バケット、BigQuery データセット、BigQuery テーブルなどの複数のアセットで構成されます。

レイクには 1 つ以上のゾーンを含めることができます。ゾーンはただ 1 つのレイクの一部となることができますが、親プロジェクト外のプロジェクトの一部であるリソースを指すアセットを含むことができます。

Dataplex でゾーンの構成を選択できます。ゾーンには、未加工とキュレート済のゾーンの 2 種類があり、それらから選択できます。

未加工のゾーン

未加工ゾーンには、構造化データ、半構造化データ(CSV ファイルや JSON ファイルなど)、外部ソースからの任意の形式の非構造化データが保存されます。これは、任意の変換の実行前に元データをステージングするのに役立ちます。データは、Cloud Storage バケットまたは BigQuery データセットに保存できます。

未加工ゾーンでは、読み取りと書き込みの権限について、バケットレベルまたはデータセット レベルの粒度がサポートされています。詳細については、IAM とアクセス制御をご覧ください。

未加工ゾーンに保存できるデータの種類に制限はありません。

キュレート済のゾーン

キュレート済のゾーンには、構造化データが保存されます。データは、Cloud Storage バケットまたは BigQuery データセットに保存できます。

Cloud Storage バケットでサポートされている形式には、Parquet、Avro、ORC などがあります。これは、分析に使用する前に処理が必要なデータをステージングする場合や、分析の準備が整ったデータを提供する場合に便利です。

BigQuery テーブルの場合、適切に定義されたスキーマと Hive スタイルのパーティションが必要です。キュレート済のゾーン内の所与のテーブルのスキーマを指定する場合、データはスキーマのドリフトなしでテーブルに定義されたスキーマに準拠する必要があります。

つまり、データにはテーブルに定義されているスキーマとの互換性が必要であり、新しいパーティションにはテーブル スキーマと競合するスキーマがあってはならない、ということです。

キュレート済のゾーンでは、読み取りと書き込みの権限について、Cloud Storage バケットレベルまたは BigQuery データセット レベルの粒度がサポートされています。詳しくは、IAM によるアクセス制御をご覧ください。

始める前に

レイクにゾーンを追加するには、レイクが必要です。まだない場合は、レイクを作成します。

大部分の gcloud lake コマンドでは、ロケーションを指定する必要があります。--location パラメータを設定して、ロケーションを指定できます。

アクセス制御

  • ゾーンを追加するには、dataplex.lakes.create IAM 権限を含む IAM ロールを付与されている必要があります。Dataplex 固有のロール roles/dataplex.admin を使用して、追加権限を付与できます。

詳しくは、IAM による Dataplex アクセス制御をご覧ください。

ゾーンを追加する

新しいゾーンを作成して既存のレイクに追加するには、Dataplex API メソッド lakes.zones.create を発行するか、Google Cloud コンソールでゾーンを追加します。

複数のゾーンをレイクに追加できます。同時に追加できるのは 1 つのゾーンだけですが、ゾーンの作成中にもレイクをまだ使用できます。

コンソール

  1. Google Cloud コンソールで、[Dataplex] に移動します。

    Dataplex に移動

  2. [管理] ビューに移動します。

  3. [管理] ビューで、ゾーンを追加するレイクの名前をクリックします。

  4. [ゾーン] タブで、 [ゾーンを追加する] をクリックします。

  5. ゾーンの表示名を入力します。

  6. [タイプ] プルダウンをクリックします。[Raw Zone] または [Curated Zone] を選択します。詳しくは、サポートされているゾーンタイプをご覧ください。

  7. (省略可)説明を入力します。

  8. [データのロケーション] で、[リージョン] または [マルチリージョン] を選択します。選択した内容は後で変更できません。単一リージョンとマルチリージョンのデータを同一のゾーン内で混在させることはできません。

  9. 省略可: メタデータ ディスカバリを有効にします。これによって、Dataplex はゾーン内のデータからメタデータを自動的にスキャンして抽出できます。

    1. [検出の設定] をクリックします。

    2. [メタデータ検出を有効にする] が選択されていることを確認します。

    3. 省略可: [パターンを含める] で、検出スキャンに含めるファイルを一覧表示します。

    4. 省略可: [パターンを除外する] で、検出スキャンで除外するファイルを一覧表示します。含めるパターンと除外するパターンの両方を入力すると、除外するパターンが最初に適用されます。

    5. [繰り返し] プルダウンをクリックして、頻度を選択します。

    6. [タイムゾーン] プルダウンをクリックし、タイムゾーンを選択します。

    7. [繰り返し] で [カスタム] を選択した場合は、[スケジュール] でジョブ スケジュールを入力します。それ以外の場合は、[スケジュール] の値が自動的に入力されます。

  10. [作成] をクリックします。

ゾーンが作成されるまでに数分かかることがあります。

REST

API Explorer を使用して、API の手順に従ってゾーンを追加します。

ゾーンの作成に成功すると、ゾーンは自動的にアクティブ状態になります。それが失敗した場合、レイクは以前の状態にロールバックされます。

ゾーンを作成すると、Cloud Storage バケットと BigQuery データセットに保存されたデータを、ゾーンのアセットとしてマッピングできます。

次のステップ