Data Catalog とは

Data Catalog は、Google Cloud のデータ分析プロダクト ファミリーに含まれる、フルマネージドのスケーラブルなメタデータ管理サービスです。

Data Catalog が必要な理由

今日、ほとんどの組織は、増え続ける膨大な数のデータアセットを扱っています。

組織内のデータ関係者(利用者、製作者、管理者)は、いくつかの課題に直面します。

  • 知見をもたらすデータを検索する:

    • データ利用者は、どのデータがどこに存在するのかわかりません。ユーザーは、「スワンプ」を移動することを必要とします。
    • ほとんどのデータでは十分に文書化されておらず、文書化されていても、適切に管理されていないため、分析情報を得るためにどのデータを使用する必要があるのかがわかりません。
    • データがもっぱらユーザーの記憶に依存した管理をされてると、データが見つからない可能性があり、多くの場合に失われます。
  • データについて:

    • データが最新、クリーン、検証済み、本番環境での使用に対して承認済みであるか。
    • 重複している複数のデータセットのうち、関連性があり最新の状態になっているデータセットはどれか。
    • データセット同士の関連性
    • データを使用しているのは誰であり、誰が所有者であるか。
    • データを変換するユーザーとプロセス。
  • データを有効に活用する:

    • データ制作者には、利用者のためのデータを効率的に転送する手段がありません。セルフサービスが存在しない場合には、プロデューサーには利用者からの要求によって処理が不可能な負荷がかかる可能性があります。数人のデータ エンジニアが、数千人ものデータ アナリストにデータを手動で提供することはできません。

    • データ コンシューマがデータアクセスの要求方法を探して、リクエストし、定義済みのレスポンス時間なしで待機してからエスカレーションし再度待機する場合は、貴重な時間が失われます。

適切なツールがないと、上述の課題がデータの効率的な使用に対する大きな障害となります。Data Catalog は、組織が以下を実現する一元化された場所を提供します。

  • 統合ビューを取得して、適切なデータを検索する手間を省く。
  • テクニカル メタデータとビジネス メタデータでデータを拡充することで、データドリブンの意思決定を支援し、分析情報の取得時間を短縮する。
  • データ管理を改善し、運用の効率性と生産性の向上を実現する。
  • データに対する所有権を取得し、データの信頼と信用を高める。

Data Catalog 関数

Data Catalog には、次の 2 つの主な機能があります。

  • アクセス可能なデータエントリを検索する
  • メタデータでデータエントリにタグ付けする

さらに、Data Catalog では、Cloud Data Loss Prevention(DLP)スキャンの結果を利用して、タグ テンプレートの形式で Data Catalog 内の機密データを直接識別できます。

Data Catalog の仕組み

Data Catalog は、さまざまな Google Cloud システムソースからのデータエントリのメタデータをカタログ化できます。

Data Catalog API を使用して、カスタムデータ リソースタイプのエントリを作成して管理することもできます。

データをカタログ化したら、タグを使用してこれらのアセットに独自のメタデータを追加できます。

Data Catalog によりカタログ化される、Pub/Sub、BigQuery、Dataplex、Dataproc Metastore、Cloud Storage のデータエントリ。

図 1:Data Catalog のアーキテクチャ

Data Catalog メタデータ

Data Catalog は、テクニカル メタデータビジネス メタデータの 2 種類のメタデータを処理します。メタデータの詳細については、Data Catalog メタデータをご覧ください。

検索と検出

Data Catalog は、データエントリに関連付けられたテクニカル メタデータとビジネス メタデータを、シンプルで強力な述語ベースの検索エクスペリエンスで提供します。メタデータに検索と検出を適用できるようにするには、データエントリのメタデータを読み取る権限が必要です。Data Catalog は、データエントリ内のデータをインデックスに登録するわけではありません。Data Catalog は、アセットを説明するメタデータのみをインデックスに登録します。

Data Catalog は、ユーザー生成タグなどの一部のメタデータを制御します。基盤となるストレージ システムから提供されるすべてのメタデータに関しては、Data Catalog は基盤となるストレージ システムから提供されるメタデータと権限を反映する読み取り専用サービスです。基盤となるストレージ システムで編集を行い、データエントリのメタデータを追加、更新、削除できます。

Data Catalog 検索の詳細については、Data Catalog でデータアセットを検索するをご覧ください。

アセットの自動カタログ

Data Catalog は、特定のプロジェクトに対して、次の Google Cloud アセットを自動的にカタログ化します。

  • BigQuery のデータセット、テーブル、ビュー。
  • Pub/Sub トピック。
  • Dataplex レイク、ゾーン、テーブル、ファイルセット。
  • (公開プレビュー): Dataproc Metastore のサービス、データベース、テーブル。
  • (公開プレビュー): Analytics Hub にリンクされたデータセット。

Data Catalog は、メタデータにアクセスできるプロジェクト ID 内のアセットをカタログ化する以外にも、一般公開データセットを含む BigQuery プロジェクトに格納されているデータもカタログ化できます。

GCP 以外のアセットをカタログ化する

組織内の GCP 以外のシステムからメタデータをカタログ化するには、以下を使用できます。

Data Catalog にアクセスする

Data Catalog には、次のいずれかの方法でアクセスできます。

次のステップ