タグとタグ テンプレート

データアセットを大規模に文書化することは簡単ではありません。特に、異なるニーズを持つ組織内の複数のグループで使用される場合は困難です。各グループは、同じデータを記述する独自のドキュメントとメタデータのセットを作成するため、作業の重複と不完全な情報が生成されることになります。Data Catalog はタグを使用してこの問題を解決します。このタグは、統合サービス内のすべてのデータアセットのメタデータの作成、検索、管理を組織に許可します。

このページでは、Data Catalog の 2 つの重要なコンセプトについて説明します。カスタム メタデータ フィールドを添付してデータアセットのコンテキストを提供できるタグと、新しいタグをすばやく作成するために使用できる再利用可能な構造であるタグ テンプレートです。

タグ

タグ「ビジネス メタデータ」と呼ばれることもあります。データアセットにタグを追加すると、アセットを使用する必要があるすべてのユーザーにわかりやすいコンテキストを提供できます。たとえば、タグは、特定のデータアセットの責任者、個人を特定できる情報(PII)が含まれているかどうか、アセットのデータ保持ポリシー、データ品質のスコアなどを示すことができます。

タグには、情報を保存できるフィールドが 1 つ以上含まれています。タグ内のフィールドは、タグ テンプレートで定義され、各フィールドは、1 つ以上のの保存に使用されます。どのタグもタグ テンプレートのインスタンスで、これはデータアセット全体、または特定のテーブルや列に適用されます。列のタグでは、その列に PII が含まれているかどうか、非推奨になったかどうか、特定の値の計算に使用された数式などを示すことが可能です。

次の図は、サンプルの顧客テーブル cust_tbl で、その列に付加されたいくつかのビジネス メタデータのタグを示しています。

サンプルの顧客テーブル。

タグ テンプレート

データのタグ付けを開始するには、まず、タグ テンプレートを 1 つ以上作成する必要があります。タグ テンプレートは、フィールドと呼ばれるメタデータの Key-Value ペアのグループです。一連のテンプレートを用意することは、メタデータのデータベース スキーマを用意することに似ています。

これにより、タグをトピック別に構成できます。例:

  • データ ガバナンス タグ - データ管理者、保持期間、削除日、PII(はい / いいえ)、データ分類(公開、機密、要注意、規制)のフィールド
  • データ品質タグ - 品質の問題、更新頻度、SLO 情報のフィールド
  • データ使用量タグ - 上位ユーザー、上位のクエリ、日別の平均ユーザー数のフィールド

その後、各データアセットとビジネスニーズに関連するタグのみを使用して、タグを混在させてマッチングできます。

タグ テンプレートを作成する方法については、クイックスタート テーブルのタグ付けをご覧ください。

フィールドの型

各フィールドには、ID表示名が含まれます。型には、stringdoublebooleanenum(列挙型)、datetime があります。型が enum の場合は、テンプレートにはそのフィールドに使用できる値も格納されます。

以下に、クイックスタートのタグ テンプレートの例を示します。ここには、複数のフィールド タイプが含まれています。

タグ テンプレートの例

以下は各フィールドにを指定した、テンプレートから作成されたタグです。

タグの例

フィールドは、順序付けされたセットとしてテンプレートに格納されます。この順序は、他のフィールドに対するフィールドの相対的な重要度を表します。

必須として示されている場合を除き、フィールドは省略可能です。テンプレートを使用する場合、必須フィールドには値を指定する必要があります。オプション フィールドは、空のまま残せます。

簡単に始められるように、Data Catalog には、一般的なタグ付けユースケースを示すタグ テンプレートのサンプルのギャラリーが含まれています。このようなサンプルは、タグ付けの効果を学んだり、ヒントを入手したり、独自のタグ付けインフラを作成する際の出発点としたりすることができます。

タグ テンプレート ギャラリーを確認するには、[作成] をクリックして [タグ テンプレートを作成] を選択します。テンプレート ギャラリーは、[テンプレートの作成] ページの上部に表示されます。

ギャラリーで選択したテンプレートは、他のタグ テンプレートと同様に使用できます。属性の追加や削除を行い、ビジネスニーズに合わせてテンプレートの任意の項目を変更することが可能です。これにより、Data Catalog を使用してテンプレートのフィールドと値を検索できます。

アクセス制御

タグとそのメタデータには機密情報が含まれている可能性があり、データ ガバナンス チームは特定のタグを一部のユーザー グループのみにしか表示してはならない場合があります。Data Catalog はテンプレートに対するアクセス制御を提供し、これらの設定は、そのテンプレートを使用して作成されたすべてのタグまで拡張されます。

テンプレートには、次のようなさまざまなアクセス制御構成を設定できます。

  • タグの作成にテンプレート作成者のみが使用できるテンプレート
  • 選択したユーザーのセットにのみ表示されるタグを作成するテンプレート
  • 選択したユーザーのセットを使用して、別の(おそらく同一の)ユーザーのセットにのみ表示されるタグを作成できるテンプレート

タグ テンプレートへのアクセスは IAM のロールによって許可または拒否されます。これらのロールによってテンプレートを作成、編集、使用する権限が付与されます。たとえば、tagTemplateUser ロールは、タグ テンプレートを使用してリソースにタグを付ける権限を付与します。

詳細については、Data Catalog の Identity and Access Management をご覧ください。

複数のプロジェクトでタグ テンプレートを使用する

タグ テンプレートを含め、Google Cloud のすべてがプロジェクトに存在しますただし、あるプロジェクトのタグ テンプレートを使用して別のプロジェクトにタグを作成することはできます(ただし、テンプレートを使用するために別のプロジェクトを認可する必要があります)。これを実装するための事前定義済みの IAM ロール(TagTemplate OwnerCreatorUserViewer など)があります。

たとえば、プロジェクト A がプロジェクト B が所有するサービス アカウントに TagTemplate User のロールを付与した場合、プロジェクト B はそのテンプレートを使用してタグを作成できます。プロジェクト A は同じサービス アカウントに、Tag Editor ロールを使用して作成されたタグを変更することもできます。

プロジェクト A がプロジェクト B を認可しない場合、プロジェクト B は独自のデータ リソースにプロジェクト A のタグ テンプレートを使用してタグ付けすることはできません。独自のテンプレートを作成する必要があります。

ベスト プラクティス: 複数のプロジェクトに関連するテンプレートは、中心となるプロジェクトで作成することをおすすめします。また、データ ガバナンス チームが共有タグ テンプレートを所有し、組織を代表して管理する必要もあります。

リージョン リソース

すべてのタグ テンプレートとタグは、特定の GCP リージョンに保存されます。タグ テンプレートを使用して、任意のリージョンにタグを作成できます。そのため、複数のリージョンにまたがるデータアセットが存在する場合、テンプレートのコピーを作成する必要はありません。