レイク、ゾーン、アセットのメタデータを管理する

このガイドでは、レイク、ゾーン、アセットの Dataplex Universal Catalog メタデータと、Dataplex Universal Catalog API を使用してメタデータを管理する方法について説明します。

概要

Dataplex Universal Catalog は、次の対象をスキャンします。

データレイク内の構造化と半構造化のデータアセット（テーブルのエンティティにテーブルのメタデータを抽出するため）
画像、テキストなどの非構造化データ（ファイルセットのメタデータをファイルセットのエンティティに抽出するため）

Dataplex Universal Catalog Metadata API を使用すると、次のことができます。

テーブルとファイルセットのエンティティのメタデータの表示、編集、削除
独自のテーブルまたはファイルセットのエンティティのメタデータの作成

Dataplex Universal Catalog メタデータは、次の方法で分析できます。

Data Catalog（非推奨）（検索とタグ付けのため）
Dataproc Metastore と BigQuery（テーブルのメタデータのクエリと分析処理のため）

Dataplex Universal Catalog API

このセクションでは、Dataplex Universal Catalog API とそれに関連する主なリソースの概要を説明します。

コントロールプレーンの API

Dataplex Universal Catalog コントロールプレーン API によって、レイク、ゾーン、アセットリソースを作成、管理できます。

レイク: 組織内のプロジェクトにわたってストレージリソースを管理できる Dataplex Universal Catalog サービスインスタンス。
ゾーン: レイク内のアセットを論理グループ化したもの。レイク内の複数のゾーンを使用して、準備状況、ワークロード、または組織構造に基づいてデータを整理します。
アセット: レイク内のゾーンに接続されたストレージリソース。Cloud Storage バケットまたは BigQuery データセットにデータが保存されています。

Metadata API

Dataplex Universal Catalog Metadata API を使用して、テーブルとファイルセットのエンティティとパーティション内でメタデータを作成、管理します。Dataplex Universal Catalog は、レイク内のまたはユーザーが指定したいずれかのデータアセットをスキャンして、エンティティとパーティションを作成します。エンティティとパーティションは、関連するアセットと物理ストレージロケーションへの参照を維持します。

主なコンセプト

テーブルエンティティ:

適切に定義されたスキーマを持つ構造化データのメタデータ。テーブルエンティティは、エンティティ ID とデータのロケーションによって一意に識別されます。テーブルエンティティメタデータは、BigQuery と Dataproc Metastore でクエリできます。

Cloud Storage オブジェクト: Cloud Storage API を介してアクセスされる Cloud Storage オブジェクトのメタデータ。
BigQuery テーブル: BigQuery API を介してアクセスされる BigQuery テーブルのメタデータ。

ファイルセットエンティティ:

非構造化データ（通常はスキーマレス）に関するメタデータ。ファイルセットは、エンティティ ID とデータロケーションによって一意に識別されます。各ファイルセットにはデータ形式があります。

パーティション:

テーブルまたはファイルセットのエンティティ内のデータのサブセットのメタデータ。一連の Key-Value ペアとデータロケーションによって識別されます。

API を試す

Dataplex Universal Catalog の lakes.zones.entities と lakes.zones.partitions の API リファレンスドキュメントページを使用して、各 API に関連付けられたパラメータとフィールドを表示します。各 API メソッドのリファレンスドキュメントに付属する [この API を試す] パネルを使用して、さまざまなパラメータとフィールドを使用して API リクエストを行います。認証情報を生成する必要なしでリクエストを作成、表示、送信でき、その後、サービスから返されたレスポンスを表示できます。

以下の各セクションでは、Dataplex Universal Catalog Metadata API を理解して使用する際に活用できる情報を示します。

エンティティ

エンティティを一覧表示

サービスから返されるエンティティのリストを制限するには、list entities リクエスト URL に filter クエリパラメータを追加します。

エンティティを取得

デフォルトでは、Get Entity レスポンスには基本的なエンティティメタデータが含まれます。追加のスキーマメタデータを取得するには、リクエスト URL に view クエリパラメータを追加します。

互換性の詳細: Dataplex Universal Catalog メタデータはメタデータ API に一元的に登録されますが、BigQuery と Dataproc Metastore に公開されるのは、BigQuery と Apache Hive Metastore と互換性のあるエンティティテーブルメタデータだけです。Get Entity API は、CompatibilityStatus メッセージを返します。これは、テーブルメタデータが BigQuery と Hive Metastore と互換性があるかどうかと、互換性がない場合はその理由を示します。

エンティティを更新

この API を使用して、エンティティメタデータを編集します。これには、ユーザーまたは Dataplex Universal Catalog がエンティティのメタデータを管理するかどうかも含まれます。

この API は、すべての可変エンティティフィールドの完全な置換を実行します。次のエンティティフィールドは変更不可であり、更新リクエストで指定された場合は無視されます。
- asset
- dataPath
- type
- system
すべての可変エンティティフィールドの値を指定します。これには、値が変更されていない場合でも、すべてのスキーマフィールドを含みます。
etag フィールドを指定します。etag を取得するには、まず entities.get リクエストを送信します。このリクエストによって、レスポンスにエンティティの etag が返されます。
スキーマフィールドの更新: Dataplex Universal Catalog が検出したテーブルスキーマを更新して、精度を改善できます。
スキーマフィールドは、 Google Cloud コンソールの Dataplex Universal Catalog ウェブインターフェースの [検出] タブに一覧表示されます。
- スキーマがファイルセットの場合は、すべてのスキーマフィールドを空のままにします。
- 繰り返しフィールドを定義するには、モードを REPEATED に設定します。構造体フィールドを定義するには、型を RECORD に設定します。
- スキーマの userManaged フィールドを設定して、ユーザーまたは Dataplex Universal Catalog がテーブルのメタデータを管理するかどうかを指定できます。デフォルトの設定では Dataplex Universal Catalog が管理します。userManaged が true に設定されている場合、この設定は、EntityView が SCHEMA または FULL に設定されている場合に entities.get リクエストから返される情報に含まれます。
パーティションフィールドの更新:
- Hive スタイル以外のパーティション分割データの場合、Dataplex Universal Catalog Discovery はパーティションキーを自動生成します。たとえば、データパス gs://root/2020/12/31 の場合、パーティションキー p0、p1、p2 が生成されます。クエリをより直感的にするために、次のように更新できます。p0、p1、p2 をそれぞれ year、month、day に更新できます。
- パーティションスタイルを HIVE スタイルに更新すると、パーティションフィールドは変更不可になります。
他のメタデータフィールドの更新: 自動生成された mimeType、CompressionFormat、CsvOptions、JsonOptions の各フィールドを更新して、Dataplex Universal Catalog の検出を支援できます。Dataplex Universal Catalog の検出は、次の実行時に新しい値を使用します。

エンティティを作成する

entities.create API を使用して、テーブルまたはファイルセットのメタデータエンティティを作成します。必須フィールドと関連するオプションフィールドに入力するか、Dataplex Universal Catalog 検出サービスにオプションフィールドに入力させます。

エンティティを削除する

etag フィールドを指定します。etag を取得するには、まず entities.get リクエストを送信します。このリクエストによって、レスポンスにエンティティの etag が返されます。

未加工のゾーン内のテーブルまたはファイルセットの基になるデータが削除されると、次の Discovery スキャン時に、テーブルまたはファイルセットのメタデータは自動的に削除されます。キュレートされたゾーン内のテーブルの基になるデータが削除された場合、それに応じてテーブルメタデータは削除されませんが、欠落しているデータアクションが報告されます。この問題を解決するには、メタデータ API を介してテーブルメタデータエンティティを明示的に削除します。

パーティション

パーティションの一覧表示

サービスから返されるパーティションのリストを制限するには、list partitions リクエスト URL に filter クエリパラメータを追加します。

例:

?filter="Country=US AND State=CA AND City=Sunnyvale"
?filter="year < 2000 AND month > 12 AND Date > 10"

パーティションの取得

パーティションを取得するには、partitions/value1/value2/…./value10 として読まれるようにフォーマットして、パーティションキー値を URL の末尾に追加して、リクエスト URL を完成させる必要があります。

例: パーティションに値 {Country=US, State=CA, City=Sunnyvale} がある場合、取得リクエスト URL の末尾は /partitions/US/CA/Sunnyvale になる必要があります。

重要: 追加する URL の値は二重エンコードする必要があります。たとえば、url_encode(url_encode(value)) を使用して「US:CA/CA#Sunnyvale」をエンコードして、リクエスト URL の末尾が /partitions/US%253ACA/CA%2523Sunnyvale となるようにできます。レスポンスの名前フィールドには、エンコードされた形式が保持されます。

パーティションの作成

データソース用にカスタマイズされたパーティションを作成するには、partitions.create API を使用します。必須のロケーションフィールドに Cloud Storage パスを指定します。

パーティションの削除

partitions/value1/value2/…./value10 として読まれるようにフォーマットして、リクエスト URL の末尾にパーティション Key-Value を追加して、リクエスト URL を完成させます。

例: パーティションに値 {Country=US, State=CA, City=Sunnyvale} がある場合、リクエスト URL の末尾は /partitions/US/CA/Sunnyvale になる必要があります。

重要: 追加する URL 値は RFC-1034 に準拠しているか、二重エンコードする（US:/CA#/Sunnyvale を US%3A/CA%3A/Sunnyvale とするなど）必要があります。

次のステップ

Apache Spark でメタデータにアクセスする際の詳細を確認する。