データエントリを大規模に文書化することは簡単ではありません。特に、異なるニーズを持つ組織内の複数のグループで使用される場合は困難です。各グループは、同じデータを記述する独自のドキュメントとメタデータのセットを作成するため、作業の重複と不完全な情報が生成されることになります。Data Catalog はタグを使用してこの問題を解決します。このタグは、統合サービス内のすべてのデータエントリのメタデータの作成、検索、管理を組織に許可します。
このドキュメントでは、Data Catalog の 2 つの重要なコンセプトについて説明します。
タグ。データエントリにアタッチしてコンテキストを提供することができるカスタム メタデータ フィールド。
タグ テンプレート。新しいタグを迅速に作成するために使用できる再利用可能な構造です。
タグ
タグはビジネス メタデータの一種です。 データエントリにタグを追加すると、アセットを使用する必要があるすべてのユーザーにわかりやすいコンテキストを提供できます。たとえば、タグは、特定のデータエントリの責任者、個人を特定できる情報(PII)が含まれているかどうか、アセットのデータ保持ポリシー、データ品質スコアなどを示すことができます。
タグは、公開タグまたは非公開タグのいずれかです。各タイプのタグには、ビジネスの要件に適した独自のメリットがあります。
非公開タグ
非公開タグによって厳密なアクセス制御が可能になります。非公開タグ テンプレートとデータエントリの両方で必要な表示権限が与えられている場合にのみ、タグとそのタグに関連付けられたデータエントリを検索または表示できます。
Data Catalog ページで非公開タグを検索するには、タグ検索構文または検索フィルタを使用する必要があります。
非公開タグは、機密情報をタグに保存する必要があり、ユーザーがタグ付きエントリを表示する権限を持っているかどうかを確認する以外に、追加のアクセス制限を適用する場合に適しています。
公開タグ
公開タグでは、非公開タグと比べて、タグの検索と表示に対するアクセス制御の厳格さが軽減されます。データエントリに必要な表示権限を持つユーザーは、そのデータエントリに関連付けられているすべての公開タグを表示できます。公開タグの表示権限は、タグ構文を使用して Data Catalog で検索する場合、または適用されていないタグ テンプレートを表示する場合にのみ必要です。
公開タグは、単純な検索と、Data Catalog の検索ページの述語による検索の両方をサポートします。タグ テンプレートを作成する場合、Google Cloud コンソールでは、公開タグ テンプレートを作成するオプションがデフォルトで、かつ推奨されています。
たとえば、Name
、Location
、Salary
という 3 つのデータエントリのタグを作成するために使用した employee data
という公開タグ テンプレートがあるとします。3 つのデータエントリのうち、HR
という特定のグループのメンバーのみが Salary
データエントリを表示できます。他の 2 つのデータエントリには、会社のすべての従業員に対する表示権限があります。
移行先のメンバーではない従業員がいる場合、HR
グループは Data Catalog の検索ページを使用して、employee
という単語で検索し、検索結果には関連付けられた公開タグを含む Name
データ エントリと Location
データ エントリが表示されます。
公開タグは幅広いシナリオで役立ち、タグは直感的に使用できます。公開タグはシンプルな検索と述語を使用した検索をサポートし、非公開タグは述語を使用した検索のみをサポートします。
データエントリにアタッチされたタグの例
次の図は、サンプルの顧客テーブル cust_tbl
で、その列に付加されたいくつかのビジネス メタデータのタグを示しています。
タグ テンプレート
データのタグ付けを開始するには、まず、タグ テンプレートを 1 つ以上作成する必要があります。タグ テンプレートは、公開タグ テンプレートまたは非公開タグ テンプレートのいずれかです。タグ テンプレートを作成する場合、Google Cloud コンソールでは、公開タグ テンプレートを作成するオプションがデフォルトで、かつ推奨されています。タグ テンプレートは、フィールドと呼ばれるメタデータの Key-Value ペアのグループです。テンプレートのセットは、メタデータのデータベース スキーマに似ています。
タグはトピック別に構成できます。次に例を示します。
- データ ガバナンス タグ - データ管理者、保持期間、削除日、PII(はい / いいえ)、データ分類(公開、機密、要注意、規制)のフィールド
- データ品質タグ - 品質の問題、更新頻度、SLO 情報のフィールド
- データ使用量タグ - 上位ユーザー、上位のクエリ、日別の平均ユーザー数のフィールド
その後、各データアセットとビジネスニーズに関連するタグのみを使用して、タグを自由に選択することができます。
タグ内のフィールド
タグには、情報を保存できるフィールドが 1 つ以上含まれています。タグ内のフィールドは、タグ テンプレートで定義され、各フィールドは、1 つ以上の値の保存に使用されます。どのタグもタグ テンプレートのインスタンスで、これはデータエントリ全体、または特定のテーブルや列に適用されます。列のタグでは、その列に PII が含まれているかどうか、非推奨になったかどうか、特定の値の計算に使用された数式などを示すことが可能です。
各フィールドには、ID、表示名、型が含まれます。型には、string
、double
、boolean
、enum
(列挙型)、datetime
があります。型が enum
の場合は、テンプレートにはそのフィールドに使用できる値も格納されます。
フィールドは、順序付けされたセットとしてテンプレートに格納されます。この順序は、他のフィールドに対するフィールドの相対的な重要度を表します。
必須として示されている場合を除き、フィールドは省略可能です。テンプレートを使用する場合、必須フィールドには値を指定する必要があります。オプション フィールドは、空のまま残せます。
テンプレートを作成した後は、オプション フィールドを必須フィールドに変更できません。
タグ内のサンプル フィールド
以下に、quickstartのタグ テンプレートの例を示します。ここには、複数のフィールド タイプが含まれています。
以下は各フィールドに値を指定した、テンプレートから作成されたタグです。
タグ テンプレート ギャラリーを表示する
簡単に始められるように、Data Catalog には、一般的なタグ付けユースケースを示すタグ テンプレートのサンプルのギャラリーが含まれています。このようなサンプルは、タグ付けの効果を学んだり、ヒントを入手したり、独自のタグ付けインフラを作成する際の出発点としたりすることができます。
タグ テンプレート ギャラリーを使用するには、次の手順を行います。
Google Cloud コンソールで、Dataplex の [タグ テンプレート] ページに移動します。
[タグ テンプレートを作成] をクリックします。
テンプレート ギャラリーは、[テンプレートを作成] ページの一部として表示されます。
ギャラリーからテンプレートを選択すると、他のタグ テンプレートと同様に使用できます。属性の追加や削除、ビジネス要件に合わせたテンプレート内の変更を行うことができます。その後、Data Catalog を使用してテンプレートのフィールドと値を検索できます。
タグのアクセス制御
タグとそのメタデータには機密情報が含まれている可能性があり、データ ガバナンス チームは特定のタグを一部のユーザー グループのみにしか表示してはならない場合があります。 Data Catalog はタグ テンプレートに対するアクセス制御を提供し、これらの設定は、そのテンプレートを使用して作成されたすべてのタグに拡張されます。
たとえば、多数のアクセス制御構成でタグ テンプレートを設定できます。
- タグの作成にテンプレート作成者のみが使用できるタグ テンプレート
- 選択したユーザーのセットにのみ表示されるタグを作成するタグ テンプレート
- 選択したユーザーのセットを使用して、別の(おそらく同一の)ユーザーのセットにのみ表示されるタグを作成できるタグ テンプレート
- 組織またはプロジェクトのすべてのユーザーに表示されるタグ テンプレート(公開タグ)
タグ テンプレートへのアクセスは IAM のロールによって許可または拒否されます。これらのロールによってタグ テンプレートを作成、編集、使用する権限が付与されます。使用可能な Data Catalog のロールは次のとおりです。
ユーザーがタグ テンプレートを作成または更新できるようにするには、タグ テンプレート作成者のロールを付与する必要があります。
ユーザーがデータエントリにタグを適用できるようにするには、タグ テンプレートのユーザーロールを付与する必要があります。
詳細については、Data Catalog の Identity and Access Management をご覧ください。
リージョン リソース
すべてのタグ テンプレートとタグは、特定の Google Cloud リージョンに保存されます。いずれかのリージョンでタグ テンプレートを使用してタグを作成できます。そのため、データエントリが複数のリージョンに分散している場合は、テンプレートのコピーを作成する必要はありません。
次のステップ
公開タグと非公開タグの表示と添付に必要なロールと権限を確認します。 公開タグと非公開タグを表示するロールと Google Cloud リソースにタグをアタッチするためのロールをご覧ください。
公開タグと非公開タグを使用してデータエントリを検索する方法を確認します。 Data Catalog の検索構文をご覧ください。
公開タグ テンプレートとタグをいくつか作成します。Data Catalog を使用して BigQuery テーブルにタグ付けするをご覧ください。