コンテンツに移動
データ分析

Data Catalog によるデータの検出、把握、管理が一般提供に

2020年5月8日
Google Cloud Japan Team

※この投稿は米国時間 2020 年 5  月 1 日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud Data Catalog はフルマネージドのスケーラブルなメタデータ管理サービスです。1 つのシンプルなインターフェースを使って、組織のあらゆるデータを迅速に検出、把握、管理できます。Google Cloud Console 内からアクセス可能で、あらかじめ設定しなくても即座にデータ検出機能を利用できます。

このたび、Data Catalog サービスが一般提供となり、世界の 23 地域でリージョン単位のサービスを実現できるようになりました。リージョン単位のサービスでは、潜在的な停止に対する復元力が向上するだけでなく、サポートされる各リージョンでメタデータの保存場所が提供されます。また、複数のリージョンに分散されたすべてのデータアセットをまとめて確認することもできます。

現在、ほとんどの組織は増え続ける膨大な数のデータアセットを扱っており、そのデータへのアクセスを開放することで、ビジネス ユーザーがセルフサービスで適切なデータアセットを検索できるようにすることを望んでいます。これまでのアプローチでは、スケールアップが失敗する、面倒な設定が必要であるなど、誰もが簡単にデータ検出を行うことはできませんでした。

Google でもかつては、拡大し続ける大規模なデータアセットの課題に直面していました。それに対処するために内部データカタログ サービスを構築したことで、包括的なメタデータ管理をすべてのデータユーザーに提供できるようになりました。効果的なデータカタログの構築に使用される手法について詳しくは、Goods: Organizing Google’s Datasets(Goods: Google のデータセットを編成する)をご覧ください。Data Catalog はこうした基盤の上に構築されており、BigQuery、Pub/Sub、Cloud Storage 内のデータを利用できるスケーラブルなマネージド サービスをすべての Google Cloud ユーザーに提供します。Data Catalog の仕組みや活用方法を以下にご紹介します。

テクニカル メタデータの自動同期

データセット、テーブル、ビューなどのあらゆる Google BigQuery データアセットのテクニカル メタデータは、継続的に Data Catalog に同期されます。つまり、Data Catalog はすぐに使用を開始でき、面倒なセットアップは必要ありません。また、Data Catalog では Pub/Sub のテクニカル メタデータと Cloud Storage のユーザー作成ファイルセットも自動同期されます。こうしたファイルセットは、ワイルドカードを使用してパターンを指定し、バケットに適用するだけで簡単に作成できます。ファイルセットは、ワイルドカード パターンに一致するバケット内のファイルをすべてグループ化したものです。
https://storage.googleapis.com/gweb-cloudblog-publish/images/1_data_catalog.max-600x600.jpg

テクニカル メタデータとビジネス メタデータ

テクニカル メタデータとは、ソースシステム内の利用可能なメタデータを指します。BigQuery テーブルのテクニカル メタデータには、テーブル名、テーブルの説明、列名、列の種類、列の説明、作成日、最終変更日などがあります。Pub/Sub の場合、テクニカル メタデータは Pub/Sub のトピック名と作成日を指します。Cloud Storage ファイルセットの場合、テクニカル メタデータはファイルセット名、ファイルセットの作成に使用されるパターン、作成日、変更日を指します。 

ビジネス メタデータとは、ビジネスや運用上の目的に不可欠であるものの、テクニカル メタデータには含まれないメタデータのコレクションを指します。ビジネス メタデータに含まれるのは、特定のデータアセットの担当者、データアセットに個人を特定できる情報(PII)が格納されているかどうか、データの公的使用が承認されているかどうか、データアセットのデータ保持ポリシー、データアセットのライフサイクル ステージ、データ品質スコア、既知のデータ品質問題、データアセットの鮮度などの情報です。Data Catalog では、複雑なビジネス メタデータをキャプチャするための構造化タグを使用できます(詳細は以下を参照)。

データの検出

Data Catalog は Google Cloud プロジェクト内で有効にするだけで使用できるようになります。Data Catalog は API が有効なプロジェクトにあるデータアセットだけでなく、すべてのプロジェクトやすべてのリージョンにあるデータアセットを検出します。BigQuery、Pub/Sub、Cloud Storage 以外のデータアセットのサポートは Data Catalog ロードマップで提供されていますが、Google Cloud 以外のデータソースのサポートはオープンソースのコネクタを通じて利用できます(以下を参照)。

Data Catalog を使用すると、キーワードを入力するだけであらゆるデータアセットが検索され、一致するデータアセットをすべて検出できます。また、プロジェクトやシステム、データアセットの種類、作成された期間を指定して、検索対象を絞り込んでデータアセットを見つけることもできます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_data_catalog.max-1000x1000.jpg

ビジネス メタデータ向けの構造化タグ

かつて一般的に使用されていた単純な文字列タグでは、さまざまなビジネス メタデータのキャプチャに対応しきれないと Google では考えています。Data Catalog を使用すると、各タグに複数の属性が含まれ、各属性の型が string、double、boolean、enumerated、datetime のいずれかであるような構造のタグを作成できます。構造化タグは 2 つのステップで作成できますまずタグ テンプレートでタグの構造を定義し、次にテンプレートに準拠したメタデータを使用してタグを作成します。各タグはデータセット、テーブル、ビュー、列などの個々のデータアセットに添付できます。

以下に示すように、データアセットの構造化タグは詳細なビジネス メタデータをすべてのデータユーザーに提供します。データ アナリストやデータ サイエンティストの場合、特定のタグを検索して、タグのコレクションで提供されるビジネス コンテキストを使用してデータアセットをより正確に把握できます。データ キュレーターやデータガバナーの場合、データ品質とデータ ガバナンスに関するメタデータを使用して、データアセットをより適切に管理できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_data_catalog.max-1100x1100.jpg

メタデータ向けのアクセス制御

Data Catalog は Cloud Identity and Access Management(Cloud IAM)と統合されています。データ検出の検索を含めて、すべての操作は該当するアクセス制御の仕様に従って処理されます。ユーザー A にはデータアセットへの読み取りアクセス権があり、ユーザー B にはそのデータアセットへのアクセス権が何もない場合、ユーザー A が検索を実行するとデータアセットが表示されますが、ユーザー B が同じ検索を実行してもデータアセットは返されません。

メタデータは性質上機密扱いである可能性があり、データ ガバナンス チームは特定のビジネス メタデータ タグを一部のユーザー グループのみにしか表示してはならない場合があります。Data Catalog はテンプレートでアクセス制御を提供し、アクセス制御はそのテンプレートを使用して作成されたすべてのタグまで拡張されます。 

Cloud DLP による PII データの自動タグ付け

Data Catalog を Cloud Data Loss Prevention(Cloud DLP)と統合すると、BigQuery で Cloud DLP の検査ジョブを実行し、PII データを識別するための Data Catalog タグを自動的に作成できます。この情報は Cloud DLP インターフェースで確認できます。Google チュートリアルCreate Data Catalog tags by inspecting BigQuery data with Cloud Data Loss Prevention(Cloud Data Loss Prevention で BigQuery データを検査して Data Catalog タグを作成する)をご参照のうえ、付随するソースコードを使用いただくこともできます。
https://storage.googleapis.com/gweb-cloudblog-publish/images/4_data_catalog.max-900x900.jpg

Google Cloud 以外のデータアセットへの対応状況

Data Catalog API は、Google Cloud 以外のデータアセットからのテクニカル メタデータの取り込みにも対応しています。オープンソースのコネクタは次に示す 4 つの Google Cloud の GitHub リポジトリにまとめられています。datacatalog-connectors には、すべてのコネクタの一般的なコンポーネントが含まれています。datacatalog-connectors-rdbms には、Oracle、SQL Server、Teradata、Redshift、PostgreSQL、MySQL、Vertica、Greenplum 用のコネクタが含まれています。datacatalog-connectors-bi は Looker と Tableau 用のコネクタをホストします。datacatalog-connectors-hive は Hive 用のコネクタにライブ同期のオプションを提供します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/5_data_catalog.max-1000x1000.jpg

Google Cloud の外部に存在するデータアセットの Data Catalog エントリには、構造化メタデータタグを添付できます。Data Catalog の 1 つのインターフェースから、すべてのデータアセットの検出、アノテーション付け、管理を実施できます。

Data Catalog のご利用準備

Data Catalog の一般提供が開始され、すべてのリージョンの企業ユーザーの皆様にセルフサービスによるデータ検出を大規模にご利用いただけるようになりました。Data Catalog は簡単に利用を開始していただけます。セットアップなしで Google Cloud 内のすべてのデータを迅速に検出、把握、管理することができ、Google Cloud 以外のデータソースからのオンプレミス メタデータの取り込みにも対応しています。Data Catalog について詳しくは、包括的なドキュメントクイックスタート ガイドをご覧ください。

- By Data Catalog プロダクト マネージャー Shekhar Bapat
投稿先