Data Catalog とは

コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

Data Catalog は、Dataplex 内のフルマネージドのスケーラブルなメタデータ管理サービスです。

Data Catalog が必要な理由

今日、ほとんどの組織は、増え続ける膨大な数のデータアセットを扱っています。

組織内のデータ関係者(利用者、製作者、管理者)は、いくつかの課題に直面します。

  • 知見をもたらすデータを検索する:

    • データ利用者は、どのデータがどこに存在するのかわかりません。ユーザーは、「スワンプ」を移動することを必要とします。
    • ほとんどのデータでは十分に文書化されておらず、文書化されていても、適切に管理されていないため、分析情報を得るためにどのデータを使用する必要があるのかがわかりません。
    • データがもっぱらユーザーの記憶に依存した管理をされてると、データが見つからない可能性があり、多くの場合に失われます。
  • データについて:

    • データが最新、クリーン、検証済み、本番環境での使用に対して承認済みであるか。
    • 重複している複数のデータセットのうち、関連性があり最新の状態になっているデータセットはどれか。
    • データセット同士の関連性
    • データを使用しているのは誰であり、誰が所有者であるか。
    • データを変換するユーザーとプロセス。
  • データの有効活用:

    • データ制作者には、利用者のためのデータを効率的に転送する手段がありません。セルフサービスが存在しない場合には、プロデューサーには利用者からの要求によって処理が不可能な負荷がかかる可能性があります。数人のデータ エンジニアが、数千人ものデータ アナリストにデータを手動で提供することはできません。

    • データ コンシューマがデータアクセスの要求方法を探して、リクエストし、定義済みのレスポンス時間なしで待機してからエスカレーションし再度待機する場合は、貴重な時間が失われます。

適切なツールがないと、課題がデータの効率的な使用に大きな障害となります。Data Catalog は、組織が以下を実現する一元化された場所を提供します。

  • 統合ビューを取得して、適切なデータを検索する手間を省く。
  • テクニカル メタデータとビジネス メタデータでデータを拡充することで、データドリブンの意思決定を支援し、分析情報の取得時間を短縮する。
  • データ管理を改善し、運用の効率性と生産性の向上を実現する。
  • データに対する所有権を取得し、データの信頼と信用を高める。

Data Catalog 関数

Data Catalog は、3 つの主な機能を提供します。

  • アクセス可能なデータエントリの検索
  • メタデータでのデータエントリのタグ付け
  • BigQuery テーブルに対する列レベルのセキュリティの提供

さらに、Data Catalog では、Cloud Data Loss Prevention(DLP)スキャンの結果を利用して、タグ テンプレートの形式で Data Catalog 内の機密データを直接識別できます。

Data Catalog の仕組み

Data Catalog は、さまざまな Google Cloud システムからアセット メタデータをカタログ化できます。

Data Catalog API を使用して、カスタム データソースと統合することもできます。

データをカタログ化したら、タグを使用してこれらのアセットに独自のメタデータを追加できます。

Data Catalog によりカタログ化される、Pub/Sub、BigQuery、Dataplex、Dataproc Metastore、Cloud Storage のデータエントリ。

図 1:Data Catalog のアーキテクチャ

Data Catalog メタデータ

Data Catalog は、テクニカル メタデータビジネス メタデータの 2 種類のメタデータを処理します。メタデータの詳細については、Data Catalog メタデータをご覧ください。

検索と検出

Data Catalog は、データエントリに関連するテクニカル メタデータとビジネス メタデータを検索するための述語ベースのシンプルで強力な検索エクスペリエンスを提供します。メタデータに検索と見つけやすさを適用できるようにするには、データエントリのメタデータを読み取る権限が必要です。Data Catalog は、データエントリ内のデータをインデックスに登録するわけではありません。Data Catalog は、アセットを説明するメタデータのみをインデックスに登録します。

Data Catalog は、ユーザー生成タグなどの一部のメタデータを制御します。Data Catalog は、基盤となるストレージ システムから提供されるすべてのメタデータに関して、基盤となるストレージ システムから提供されるメタデータと権限を反映する読み取り専用サービスです。基盤となるストレージ システムを編集して、データエントリのメタデータを追加、更新、削除できます。

Data Catalog 検索の詳細については、Data Catalog でデータアセットを検索するをご覧ください。

アセットの自動カタログ

Data Catalog は、特定のプロジェクトに対して、次の Google Cloud アセットを自動的にカタログ化します。

  • BigQuery のデータセット、テーブル、ビュー。
  • Pub/Sub トピック。
  • Dataplex のレイク、ゾーン、テーブル、ファイルセット。
  • Analytics Hub にリンクされたデータセット。
  • (公開プレビュー): Dataproc Metastore のサービス、データベース、テーブル。

Data Catalog は、メタデータにアクセスできるプロジェクト ID 内のアセットをカタログ化する以外にも、一般公開データセットを含む BigQuery プロジェクトに格納されているデータもカタログ化できます。

GCP 以外のアセットをカタログ化する

組織内の GCP 以外のシステムからメタデータをカタログ化するには、以下を使用できます。

Data Catalog にアクセスする

Data Catalog の機能には、以下を使用してアクセスできます。

次のステップ