データカタログの概要

Data Catalog は、Google Cloud のデータ分析プロダクト ファミリーに含まれる、フルマネージドのスケーラブルなメタデータ管理サービスです。

Data Catalog が必要な理由

今日、ほとんどの組織は、増え続ける膨大な数のデータアセットを扱っています。

組織内のデータ関係者(コンシューマ、プロデューサー、管理者)には、次のような課題があります。

  • 有用なデータを検索する:

    • データ利用者は、どのデータがどこに存在するのかわかりません。ユーザーは、偶然目にしたデータの「スワンプ」を移動することを必要とします。
    • ほとんどのデータでは十分に文書化されておらず、文書化されていても、適切に管理されていないため、分析情報を得るためにどのデータを使用する必要があるのかがわかりません。
    • データがもっぱらユーザーの記憶に依存した管理をされてると、データが見つからない可能性があり、多くの場合に失われます。
  • データについて:

    • データが最新、クリーン、検証済み、本番環境での使用に対して承認済みであるか。
    • 重複している複数のデータセットのうち、関連性があり最新の状態になっているデータセットはどれか。
    • データセットと別のデータセットの関係
    • データを使用しているのは誰であり、誰が所有者であるか。
    • データを変換するユーザーとプロセス。
  • データを有効活用する:

    • データ制作者には、利用者のためのデータを効率的に転送する手段がありません。セルフサービスが存在しない場合には、プロデューサーには利用者からの要求によって処理が不可能な負荷がかかる可能性があります。数人のデータ エンジニアが、数千人ものデータ アナリストにデータを手動で提供することはできません。

    • データ コンシューマがデータアクセスの要求方法を探して、リクエストし、定義済みのレスポンス時間なしで待機してからエスカレーションし再度待機する場合は、貴重な時間が失われます。

適切なツールがなければ、上記の課題はデータの効率的な利用を妨げる大きな障害となります。Data Catalog は、組織が以下の内容を行うことを可能にする一元化された場所です。

  • 統合ビューを取得して、適切なデータを検索する手間を省く。
  • 技術メタデータとビジネス メタデータでデータを強化し、データドリブンの意思決定を行い、分析情報を得るまでの時間を短縮する。
  • データ管理を改善し、運用の効率性と生産性の向上を実現する。
  • データに対する所有権を取得し、データの信頼と信用を高める。

Data Catalog の使用

Data Catalog では、主に 2 つの操作を行います。

さらに、Data Catalog は Cloud Data Loss Prevention(DLP)と対話して、Cloud Data Loss Prevention の強力な自動タグ設定メカニズムを使用することで、センシティブ データを自動的に識別します。

Data Catalog の仕組み

Data Catalog は、次の Google Cloud ストレージ システムソースからのデータアセットのネイティブ メタデータをカタログ化できます。

  • BigQuery のデータセット、テーブル、ビュー
  • Pub/Sub トピック
  • Dataproc Metastore のサービス、データベース、テーブル

Data Catalog API を使用して、カスタムデータ リソースタイプのエントリを作成して管理することもできます。

データをカタログ化したら、タグを使用してこれらのアセットに独自のメタデータを追加できます。

テクニカル メタデータおよび、ビジネス メタデータ

Data Catalog は、テクニカル メタデータビジネス メタデータの 2 種類のメタデータを処理します。違いを理解するには、以下の Data Catalog エントリの例をご覧ください。

  • テクニカル メタデータ: 上記の BigQuery table details に表示されているように、これはデータアセットが存在する基盤となるストレージ システムから供給され、以下を含みます。

    • 名前や ID などのプロジェクト情報
    • アセットの名前と説明
    • Google Cloud のリソースラベル
    • BigQuery のテーブルとビューのスキーマ名と説明
  • ビジネス メタデータ: 上記のTags (1)に表示されているように、これは、Data Catalog タグを使用してアセットに適用されるユーザー作成のメタデータです。ビジネス メタデータは、常にテクニカル メタデータ エントリにリンクされています。

検索と検出

Data Catalog は、強力で構造化された検索機能と、データアセットのテクニカル メタデータとビジネス メタデータの両方に対する述語ベースのフィルタリングを行えます。検索および発見できるためには、データアセットのメタデータを読み取れる必要があります。Data Catalog は、データアセット内のデータをインデックスに登録するわけではありません。Data Catalog は、アセットを説明するメタデータをインデックスに登録します。

Data Catalog はユーザー生成タグなど一部のメタデータを制御します。しかし、基盤となるストレージ システムから提供されるすべてのメタデータに関しては、Data Catalog は基盤となるストレージ システムから提供されるメタデータと権限を反映する読み取り専用サービスです。追加、削除、更新など、アセットのネイティブ メタデータに対する編集は、基盤となるストレージ システムで行います。

特定のプロジェクトについて、Data Catalog は次のアセットを自動的にカタログ化します。

  • Cloud Storage、Cloud Bigtable、Google スプレッドシートの BigQuery のデータセット、テーブル、ビュー、外部テーブル
  • Pub/Sub トピック
  • Dataproc Metastore のサービス、データベース、テーブル

メタデータにアクセスできるプロジェクト ID 内のアセットをカタログ化することに加えて、Data Catalog は、一般公開データセットを含む BigQuery プロジェクトに保存されたデータをカタログ化できます。

タグ

大量のデータアセットを文書化することは、特に組織内の複数のグループでデータが消費される場合には困難です。グループごとに、データアセットを説明する独自のドキュメント セットが作成されることもあります。 Data Catalog タグ テンプレートは、単一の場所でデータアセットに関する一般的なメタデータを作成および管理するのに役立ちます。タグはデータアセットに添付されているため、Data Catalog システムで検出できます。この機能を使うと、データアセットに関するこのコンテキスト メタデータを消費する追加のアプリケーションをビルドでき、さらなるアクションも可能です。

Data Catalog を操作する方法

Cloud Consolegcloud コマンドライン インターフェース(CLI)、Data Catalog API を使用するか、Cloud クライアント ライブラリを使用して API を呼び出すことで Data Catalog にアクセスできます。

次のステップ