Data Catalog を操作する
Data Catalog は BigQuery と統合されている Dataplex の機能で、テーブル、データセット、ビュー、モデルなどの BigQuery リソースに関するメタデータを自動的にカタログ化します。このドキュメントでは、Data Catalog を使用して、これらのリソースの検索、データリネージの表示、タグの追加を行う方法について説明します。
BigQuery リソースを検索する
Data Catalog を使用して BigQuery のデータセット、テーブル、スター付きプロジェクトを検索するには、次の操作を行います。
Google Cloud コンソールで、Dataplex の [検索] ページに移動します。
[検索] フィールドにクエリを入力し、[検索] をクリックします。
検索パラメータを絞り込むには、[フィルタ] パネルを使用します。たとえば、[システム] セクションで [BigQuery] チェックボックスをオンにします。結果は BigQuery システムにフィルタされます。
Google Cloud コンソールを使用して、Data Catalog で基本的な検索を行うことができます。Google Cloud コンソールでの検索の詳細については、一般公開データセットを開くをご覧ください。
データリネージ
データリネージは Dataplex の機能で、システム内でのデータの移動(データの送信元、データの通過先、データに適用される変換)を追跡できます。データリネージ機能には BigQuery から直接アクセスできます。
BigQuery プロジェクトでデータリネージを有効にすると、Dataplex は次のオペレーションで作成されたテーブルのリネージ情報を自動的に記録します。
- コピージョブ。
GoogleSQL で次のデータ定義言語(DDL)ステートメントまたはデータ操作言語(DML)ステートメントを使用するクエリジョブ。
CREATE TABLE
(CREATE TABLE AS SELECT
ステートメントを含む)INSERT
UPDATE
DELETE
MERGE
始める前に
このセクションでは、データリネージ API を有効にして、このドキュメントの各タスクを実行するために必要な権限をユーザーに与える Identity and Access Management(IAM)ロールを付与します。
データ系列を有効にする
- Google Cloud コンソールの [プロジェクト セレクタ] ページで、リネージを追跡するリソースを含むプロジェクトを選択します。
- Data Lineage API と Data Catalog API を有効にします。
必要な IAM のロール
Data Lineage API を有効にすると、リネージ情報が自動的に追跡されます。
リネージの可視化グラフを表示するために必要な権限を取得するには、次の IAM ロールを付与するよう管理者に依頼してください。
- Data Catalog リソース プロジェクトの Data Catalog 閲覧者(
roles/datacatalog.viewer
)。 - データリネージでサポートされているシステムを使用するプロジェクトのデータリネージ閲覧者(
roles/datalineage.viewer
)。 -
BigQuery メタデータ(
roles/bigquery.metadataViewer
)
ロールの付与の詳細については、アクセス権の管理をご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
詳細については、データリネージのロールをご覧ください。
BigQuery でリネージグラフを表示する
BigQuery でデータリネージ可視化グラフを表示する手順は次のとおりです。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] パネルで、プロジェクトとデータセットを開いて、テーブルを選択します。
[リネージ] タブをクリックします。
データリネージ可視化グラフが表示されます。
省略可: リネージ情報の作成に関連するエンティティまたはプロセスの詳細を表示するには、ノードを選択します。
データリネージの詳細については、データリネージについてをご覧ください。
タグとタグ テンプレート
組織は、タグを使用して、統合サービス内のすべてのデータエントリのメタデータを作成、検索、管理できます。
このセクションでは、Data Catalog の 2 つの重要なコンセプトについて説明します。
タグを使用すると、カスタム メタデータ フィールドを追加して、データエントリにコンテキストを提供できます。
タグ テンプレートは再利用可能な構造になっています。これを使用すると、新しいタグをすばやく作成できます。
タグ
Data Catalog には、非公開タグと公開タグの 2 種類のタグがあります。
非公開タグ
非公開タグによって厳密なアクセス制御が可能になります。非公開タグ テンプレートとデータエントリの両方で必要な表示権限が与えられている場合にのみ、タグとそのタグに関連付けられたデータエントリを検索または表示できます。
Data Catalog ページで非公開タグを検索するには、tag:
検索構文または検索フィルタを使用する必要があります。
非公開タグは、機密情報をタグに保存する必要があり、ユーザーがタグ付きエントリを表示する権限を持っているかどうかを確認する以外に、追加のアクセス制限を適用する場合に適しています。
公開タグ
公開タグでは、非公開タグと比べて、タグの検索と表示に対するアクセス制御の厳格さが軽減されます。データエントリに必要な表示権限を持つユーザーは、そのデータエントリに関連付けられているすべての公開タグを表示できます。公開タグの表示権限は、tag:
構文を使用して Data Catalog で検索する場合、または適用されていないタグ テンプレートを表示する場合にのみ必要です。
公開タグは、単純な検索と、Data Catalog の検索ページの述語による検索の両方をサポートします。タグ テンプレートを作成する場合、Google Cloud コンソールでは、公開タグ テンプレートを作成するオプションがデフォルトで、かつ推奨されています。
たとえば、Name
、Location
、Salary
という 3 つのデータエントリのタグを作成するために使用した employee data
という公開タグ テンプレートがあるとします。3 つのデータエントリのうち、HR
という特定のグループのメンバーのみが Salary
データエントリを表示できます。他の 2 つのデータエントリには、会社のすべての従業員に対する表示権限があります。
移行先のメンバーではない従業員がいる場合、HR
グループは Data Catalog の検索ページを使用して、employee
という単語で検索し、検索結果には関連付けられた公開タグを含む Name
データエントリと Location
データエントリが表示されます。
公開タグは、さまざまなシナリオで役立ちます。公開タグはシンプルな検索と述語を使用した検索をサポートし、非公開タグは述語を使用した検索のみをサポートします。
タグ テンプレート
メタデータのタグ付けを開始するには、まず、タグ テンプレートを 1 つ以上作成する必要があります。タグ テンプレートは、公開タグ テンプレートまたは非公開タグ テンプレートのいずれかです。タグ テンプレートを作成する場合、Google Cloud コンソールでは、公開タグ テンプレートを作成するオプションがデフォルトで、かつ推奨されています。タグ テンプレートは、フィールドと呼ばれるメタデータの Key-Value ペアのグループです。テンプレートのセットは、メタデータのデータベース スキーマに似ています。
タグはトピック別に構成できます。次に例を示します。
- データ管理者、保持期間、削除日、個人情報(PII)(はい / いいえ)、データ分類(公開、機密、要注意、規制)のフィールドを含む
data governance
タグ - 品質の問題、更新頻度、SLO 情報のフィールドを含む
data quality
タグ - 上位ユーザー、上位クエリ、1 日あたりの平均ユーザー数のフィールドを含む
data usage
タグ
その後、各データアセットとビジネスニーズに関連するタグのみを使用して、タグを自由に選択できます。
タグ テンプレート ギャラリーを表示する
簡単に始められるように、Data Catalog には、一般的なタグ付けユースケースを示すタグ テンプレートのサンプルのギャラリーが含まれています。このようなサンプルは、タグ付けの効果を学んだり、ヒントを入手したり、独自のタグ付けインフラを作成する際の出発点としたりすることが可能です。
タグ テンプレート ギャラリーを使用するには、次の手順を行います。
Google Cloud コンソールで、Dataplex の [タグ テンプレート] ページに移動します。
[タグ テンプレートを作成] をクリックします。
テンプレート ギャラリーは、[テンプレートを作成] ページの一部として表示されます。
ギャラリーからテンプレートを選択すると、他のタグ テンプレートと同様に使用できます。属性の追加または削除、ビジネス要件に合わせたテンプレート内の変更を行うことができます。その後、Data Catalog を使用してテンプレートのフィールドと値を検索できます。
タグとタグ テンプレートの詳細については、タグとタグ テンプレートをご覧ください。
リージョン リソース
すべてのタグ テンプレートとタグは、特定の Google Cloud リージョンに保存されます。いずれかのリージョンでタグ テンプレートを使用してタグを作成できます。そのため、メタデータ エントリが複数のリージョンに分散している場合は、テンプレートのコピーを作成する必要はありません。