タグとタグ テンプレート

データアセットを大規模に文書化することは簡単ではありません。特に、異なるニーズを持つ組織内の複数のグループで使用される場合は困難です。各グループは、同じデータを記述する独自のドキュメントとメタデータのセットを作成するため、作業の重複と不完全な情報が生成されることになります。Data Catalog はタグを使用してこの問題を解決します。このタグは、統合サービス内のすべてのデータアセットのメタデータの作成、検索、管理を組織に許可します。

このページでは、Data Catalog の 2 つの重要なコンセプトについて説明します。カスタム メタデータ フィールドを添付してデータアセットのコンテキストを提供できるタグと、新しいタグをすばやく作成するために使用できる再利用可能な構造であるタグ テンプレートです。

タグ

タグ「ビジネス メタデータ」と呼ばれることもあります。データアセットにタグを追加すると、アセットを使用する必要があるすべてのユーザーにわかりやすいコンテキストを提供できます。たとえば、タグは、特定のデータアセットの責任者、個人を特定できる情報(PII)が含まれているかどうか、アセットのデータ保持ポリシー、データ品質のスコアなどを示すことができます。

タグには、情報を保存できるフィールドが 1 つ以上含まれています。タグ内のフィールドは、タグ テンプレートで定義され、各フィールドは、1 つ以上のの保存に使用されます。どのタグもタグ テンプレートのインスタンスで、これはデータアセット全体、または特定のテーブルや列に適用されます。列のタグでは、その列に PII が含まれているかどうか、非推奨になったかどうか、特定の値の計算に使用された数式などを示すことが可能です。

次の図は、サンプルの顧客テーブル cust_tbl で、その列に付加されたいくつかのビジネス メタデータのタグを示しています。

サンプルの顧客テーブル。

タグ テンプレート

データのタグ付けを開始するには、まず、タグ テンプレートを 1 つ以上作成する必要があります。タグ テンプレートは、フィールドと呼ばれるメタデータの Key-Value ペアのグループです。一連のテンプレートを用意することは、メタデータのデータベース スキーマを用意することに似ています。

これにより、トピック別にタグを構造化できます。次に例を示します。

  • データ ガバナンス タグ - データ管理者、保持期間、削除日、PII(はい / いいえ)、データ分類(公開、機密、要注意、規制)のフィールド
  • データ品質タグ - 品質の問題、更新頻度、SLO 情報のフィールド
  • データ使用量タグ - 上位ユーザー、上位のクエリ、日別の平均ユーザー数のフィールド

その後、各データアセットとビジネスニーズに関連するタグのみを使用して、タグを自由に選択することができます。

タグ テンプレートを作成する方法については、クイックスタート テーブルのタグ付けをご覧ください。

フィールドの型

各フィールドには、ID表示名が含まれます。型には、stringdoublebooleanenum(列挙型)、datetime があります。型が enum の場合は、テンプレートにはそのフィールドに使用できる値も格納されます。

以下に、クイックスタートのタグ テンプレートの例を示します。ここには、複数のフィールド タイプが含まれています。

タグ テンプレートの例

以下は各フィールドにを指定した、テンプレートから作成されたタグです。

タグの例

フィールドは、順序付けされたセットとしてテンプレートに格納されます。この順序は、他のフィールドに対するフィールドの相対的な重要度を表します。

必須として示されている場合を除き、フィールドは省略可能です。テンプレートを使用する場合、必須フィールドには値を指定する必要があります。オプション フィールドは、空のまま残せます。

簡単に始められるように、Data Catalog には、一般的なタグ付けユースケースを示すタグ テンプレートのサンプルのギャラリーが含まれています。このようなサンプルは、タグ付けの効果を学んだり、ヒントを入手したり、独自のタグ付けインフラを作成する際の出発点としたりすることができます。

[作成] をクリックし、[タグ テンプレートを作成] を選択すると、タグ テンプレート ギャラリーが表示されます。[テンプレートの作成] ページの上部にテンプレート ギャラリーが表示されます。

ギャラリーからテンプレートを選択すると、他のタグ テンプレートと同様に使用できます。属性の追加や削除、ビジネス要件に合わせたテンプレート内の変更を行うことができます。その後、Data Catalog を使用してテンプレートのフィールドと値を検索できます。

アクセス制御

タグとそのメタデータには機密情報が含まれている可能性があり、データ ガバナンス チームは特定のタグを一部のユーザー グループのみにしか表示してはならない場合があります。Data Catalog はテンプレートに対するアクセス制御を提供し、これらの設定は、そのテンプレートを使用して作成されたすべてのタグまで拡張されます。

たとえば、多数のアクセス制御構成でテンプレートを設定できます。

  • タグの作成にテンプレート作成者のみが使用できるテンプレート
  • 選択したユーザーのセットにのみ表示されるタグを作成するテンプレート
  • 選択したユーザーのセットを使用して、別の(おそらく同一の)ユーザーのセットにのみ表示されるタグを作成できるテンプレート

タグ テンプレートへのアクセスは IAM のロールによって許可または拒否されます。これらのロールによってテンプレートを作成、編集、使用する権限が付与されます。たとえば、tagTemplateUser ロールは、タグ テンプレートを使用してリソースにタグを付ける権限を付与します。

詳細については、Data Catalog の Identity and Access Management をご覧ください。

リージョン リソース

すべてのタグ テンプレートとタグは、特定の GCP リージョンに保存されます。いずれかのリージョンでタグ テンプレートを使用してタグを作成できます。そのため、データアセットが複数のリージョンに分散している場合は、テンプレートのコピーを作成する必要はありません。