データカタログの概要

適切なツールがないと、データアセットの管理に時間と費用がかかる可能性があります。 Data Catalog は、組織がデータアセットを検索、整理、説明できる、一元化された場所を提供します。

Data Catalog は、Google Cloud のデータ分析プロダクト ファミリーに含まれる、フルマネージドのスケーラブルなメタデータ管理サービスです。

Data Catalog の使用

Data Catalog では、主に 2 つの操作を行います。

さらに、Data Catalog は Cloud Data Loss Prevention(DLP)と対話して、Cloud Data Loss Prevention の強力な自動タグ設定メカニズムを使用することで、センシティブ データを自動的に識別します。

Data Catalog の仕組み

Data Catalog は、次の Google Cloud ストレージ システムソースからのデータアセットのネイティブ メタデータをカタログ化できます。

  • BigQuery のデータセット、テーブル、ビュー
  • Pub/Sub トピック

Data Catalog API を使用して、カスタムデータ リソースタイプのエントリを作成して管理することもできます。

データをカタログ化したら、タグを使用してこれらのアセットに独自のメタデータを追加できます。

テクニカル メタデータおよび、ビジネス メタデータ

Data Catalog は、テクニカル メタデータビジネス メタデータの 2 種類のメタデータを処理します。違いを理解するには、以下の Data Catalog エントリの例をご覧ください。

  • テクニカル メタデータ: 上記の BigQuery table detailsに表示されているように、これはデータアセットが存在する基盤となるストレージ システムから供給され、以下を含みます。
    • 名前や ID などのプロジェクト情報
    • アセットの名前と説明
    • Google Cloud のリソースラベル
    • BigQuery のテーブルとビューのスキーマ名と説明
  • ビジネス メタデータ: 上記のTags (1)に表示されているように、これは、Data Catalog タグを使用してアセットに適用されるユーザー作成のメタデータです。ビジネス メタデータは、常にテクニカル メタデータ エントリにリンクされています。

検索と検出

Data Catalog は、強力で構造化された検索機能と、データアセットのテクニカル メタデータとビジネス メタデータの両方に対する述語ベースのフィルタリングを行えます。検索および発見できるためには、データアセットのメタデータを読み取れる必要があります。Data Catalog は、データアセット内のデータをインデックスに登録するわけではありません。Data Catalog は、アセットを説明するメタデータをインデックスに登録します。

Data Catalog はユーザー生成タグなど一部のメタデータを制御します。しかし、基盤となるストレージ システムから提供されるすべてのメタデータに関しては、Data Catalog は基盤となるストレージ システムから提供されるメタデータと権限を反映する読み取り専用サービスです。追加、削除、更新など、アセットのネイティブ メタデータに対する編集は、基盤となるストレージ システムで行います。

Data Catalog は、特定のプロジェクトのすべての BigQuery データセット、テーブル、ビューのほか、Cloud Storage、Cloud Bigtable、Google スプレッドシートの外部テーブルを自動的にカタログ化します。さらに、そのプロジェクトの Pub/Sub トピックも自動的にカタログ化します。

メタデータにアクセスできるプロジェクト ID 内のアセットをカタログ化することに加えて、Data Catalog は、一般公開データセットを含む BigQuery プロジェクトに保存されたデータをカタログ化できます。

タグ

大量のデータアセットを文書化することは、特に組織内の複数のグループでデータが消費される場合には困難です。グループごとに、データアセットを説明する独自のドキュメント セットが作成されることもあります。 Data Catalog タグ テンプレートは、単一の場所でデータアセットに関する一般的なメタデータを作成および管理するのに役立ちます。タグはデータアセットに添付されているため、Data Catalog システムで検出できます。この機能を使うと、データアセットに関するこのコンテキスト メタデータを消費する追加のアプリケーションをビルドでき、さらなるアクションも可能です。

Data Catalog を操作する方法

Cloud Consolegcloud コマンドライン インターフェース(CLI)、Data Catalog API を使用するか、Cloud クライアント ライブラリを使用して API を呼び出すことで Data Catalog にアクセスできます。

次のステップ