Dataplex Catalog の概要

このドキュメントでは、メタデータを保存、管理し、アクセスするためのプラットフォームを備えた Dataplex Catalog について説明します。

Dataplex Catalog は、BigQuery などのGoogle Cloud リソースと、オンプレミス リソースなどの他のリソースの統合インベントリを備えています。Dataplex Catalog は Google Cloud リソースのメタデータを自動的に取得します。ユーザーは、サードパーティ リソースのメタデータを Dataplex Catalog に取り込みます。

Dataplex Catalog を使用すると、ビジネス メタデータとテクニカル メタデータを追加してインベントリを拡充し、リソースのコンテキストと知識を取得できます。Dataplex Catalog によって、組織全体でデータを検索して検出し、データアセットに対するデータ ガバナンスを有効にできます。

デフォルトのカタログ エクスペリエンスを Dataplex Catalog に設定できます。 Data Catalog を使用している場合は、Data Catalog のコンテンツと使用状況を Dataplex Catalog に移行します。 詳細については、Data Catalog から Dataplex Catalog に移行するをご覧ください。

ユースケース

Dataplex Catalog を使用すると、次のことができます。

  • データを検出して把握する。Dataplex Catalog は、組織全体のデータリソースを可視化できます。それにより、データ使用ニーズに関連するリソースを見つけることができます。データリソースのコンテキストを提供します。これにより、データ利用者のニーズに対するデータリソースの適合性を把握できます。

  • データ ガバナンスとデータ管理を有効にする。Dataplex Catalog が提供するメタデータによって、データ ガバナンスとデータ管理機能に情報を付与して強化することが可能です。

  • メタデータ用に拡張可能で包括的なリポジトリを維持する。 Dataplex Catalog は、 Google Cloud リソースから自動的に収集されたメタデータを保存し、メタデータへのアクセスを提供します。Google Cloud 以外のシステムから独自のメタデータを統合できます。ビジネス メタデータとテクニカル メタデータの追加アノテーションを使用して、すべてのメタデータを拡充できます。

Dataplex Catalog の仕組み

Dataplex Catalog は次のコンセプトに基づいています。

  • エントリ: エントリはデータアセットを表します。ほとんどのメタデータは、エントリ内のアスペクトで記述されます。これは、Data Catalog のエントリと類似しています。詳細については、エントリをご覧ください。

  • アスペクト: アスペクトは、エントリ内の関連する一連のメタデータ フィールドです。アスペクトは、エントリの構成要素、またはエントリに追加するメタデータとして解釈できます。これは Data Catalog のタグに似ていますが、アスペクトはスタンドアロン リソースとしてではなく、エントリ内に保存されます。 詳細については、アスペクトをご覧ください。

  • アスペクト タイプ: アスペクト タイプは、アスペクトに再利用可能なテンプレートです。すべてのアスペクトは、アスペクト タイプのインスタンスです。これは、Data Catalog のタグ テンプレートに類似しています。詳細については、アスペクト タイプをご覧ください。

  • エントリ グループ: エントリ グループは、エントリのコンテナであり、エントリの管理単位として機能します。たとえば、エントリ グループを使用して、エントリ グループ内のエントリの Identity and Access Management アクセス制御、プロジェクトのアトリビューション、ロケーションを構成します。これは、Data Catalog のエントリ グループに類似しています。詳細については、エントリ グループをご覧ください。

  • エントリタイプ: エントリタイプは、エントリを作成するためのテンプレートです。このタイプでは、このタイプのエントリに必要なアスペクトのリストとして、重要なメタデータ要素が設定されます。詳細については、エントリタイプをご覧ください。

    エントリとエントリ グループ
    図 1. エントリとエントリ グループ
    アスペクト タイプとエントリタイプ
    図 2.アスペクト タイプとエントリタイプ

Dataplex Catalog のユースケースの一部を以下に示します。

  • データ アナリストやビジネス アナリストは、組織全体のエントリを検索し、エントリに関連付けられているメタデータを調査できます。詳細については、データアセットを検索するをご覧ください。
  • データ オーナーまたはデータ ガバナーは、エントリにアスペクトによる注釈を付けることで、技術メタデータとビジネス メタデータを追加でキャプチャできます。詳細については、アスペクトを管理してメタデータを拡充するをご覧ください。
  • データオーナーまたはデータガバナーは、注釈(アスペクト タイプを使用)とカスタム エントリ(エントリタイプを使用)の標準を定義することで、メタデータに整合性をもたらすことができます。詳細については、アスペクトを管理してメタデータを拡充するをご覧ください。
  • データ エンジニアは、 Google Cloud リソースやサードパーティ システムのリソースなど、リソースの統合インベントリを利用できます。 Google Cloud リソースは Dataplex Catalog によって自動的に収集され、Google Cloud 以外のリソースはユーザーが収集します。詳細については、エントリを管理してカスタムソースを取り込むをご覧ください。

既存の Data Catalog ユーザーの場合

Data Catalog をすでに使用している場合は、次の点にご注意ください。

  • Data Catalog で作成したカスタム エントリ、概要コンテキスト、エントリ グループは、Dataplex Catalog で使用できます。
  • 管理者は、Data Catalog のタグ テンプレートとタグのコンテンツを Dataplex Catalog で同時に利用できるように選択できます。詳細については、Data Catalog から Dataplex Catalog に移行するをご覧ください。
  • Dataplex Catalog でデータアセットを検索すると、Dataplex Catalog で直接作成されたメタデータと、Data Catalog から Dataplex Catalog に移行されたメタデータの両方が含まれます。
  • Data Catalog でデータアセットを検索すると、Data Catalog で作成されたメタデータのみが含まれます。
  • Data Catalog のエントリ グループの説明が 1,024 文字を超えると、Dataplex Catalog では 1,024 文字に切り捨てられます。

Data Catalog のコンテンツと使用状況を Dataplex Catalog に移行する方法については、Data Catalog から Dataplex Catalog への移行をご覧ください。

Dataplex Catalog と Data Catalog の比較

Dataplex Catalog は、Dataplex でメタデータを管理する機能を提供します。個別のメタデータ ストレージと、Dataplex API に統合された新しい API メソッドのセットが用意されています。

Dataplex Catalog の主な機能は次のとおりです。

  • より堅牢なメタモデル

    • タイプ化されたエントリ。カスタム エントリに必要なメタデータ コンテンツを定義することで、最小限のメタデータ標準を適用できます。
    • カスタム エントリ用のユーザー構成可能なメタモデル。カスタム取り込みの堅牢性を高め、カスタム メタデータの一貫性と包括性を向上させます。
    • リスト、マップ、配列などのネスト構造のサポートなど、より多様で複雑なメタデータをサポート。
  • 単一のアトミックな CRUD オペレーションを通じてエントリに関連付けられたすべてのメタデータとやり取りする機能や、検索またはリストのレスポンスに関連付けられた複数のメタデータ注釈を取得する機能など、向上したスケーラビリティ。

次の表は、Dataplex Catalog と Data Catalog の機能を比較したものです。

Dataplex Catalog と Data Catalog の比較
機能 Dataplex Catalog Data Catalog
サポート対象の Google Cloud ソース このドキュメントのサポートされている Google Cloud ソースのセクションに記載されているすべてのソース。 エントリとエントリ グループで説明されているすべてのソース。
カスタムソースの取り込み

エントリタイプで定義された、管理対象の構造を持つカスタム エントリへの取り込み。

Data Catalog のカスタム エントリとエントリ グループは、Dataplex Catalog の generic エントリタイプで使用できます。

汎用カスタム エントリへの取り込み。
メタデータ拡張 エントリのメタデータ コンテキストは、アスペクトとアスペクト タイプを使用してキャプチャされます。 エントリのメタデータ コンテキストは、タグとタグ テンプレートを使用してキャプチャされます。
検索 検索は次の対象に対して実行されます。
  • サポートされている Google Cloud ソースで説明されているすべての Google Cloud ソース
  • Dataplex Catalog で作成されたカスタム エントリ
  • Dataplex Catalog で作成されたアスペクト
  • Data Catalog で作成され、Dataplex Catalog に取り込まれたカスタム エントリ

検索結果には、検索が実行されるプロジェクトと同じ組織と同じ VPC-SC 境界に属するリソースのみが含まれます。Google Cloud コンソールを使用する場合、これはコンソールで選択したプロジェクトです。

エントリを検索するには、検索に使用されるプロジェクトで少なくとも 1 つの Dataplex Catalog IAM ロールが必要です。検索結果に対する権限は、選択したプロジェクトとは別にチェックされます。

検索は次の対象に対して実行されます。
データリネージ

データリネージは、Dataplex API を使用してアセットノードのエントリの詳細を取得します。

Google Cloud コンソールに、アタッチされたアスペクトが表示されます。

データリネージは、Data Catalog API を使用してアセットノードのエントリの詳細を取得します。

Google Cloud コンソールに、アタッチされたタグと用語集の用語が表示されます。

次の表に、Dataplex Catalog リソースと Data Catalog リソースの関係を示します。

Dataplex Catalog リソースと Data Catalog リソースのマッピング
Dataplex Catalog リソース Data Catalog リソース 説明
アスペクト タイプ(global 公開タグ テンプレート タグ テンプレートはリージョン リソースです。ただし、これらを使用してリージョン間でタグを作成できます。タグ テンプレートは、Dataplex Catalog の global アスペクト タイプに対応しています。
オプションのアスペクト 公開タグ Data Catalog の公開タグは、Dataplex Catalog のオプションのアスペクトに対応しています。
エントリ グループ エントリ グループ Google Cloud ソースの場合、@bigquery などのシステム エントリ グループは、Dataplex Catalog でプロジェクトごとに設定されます。
カスタム エントリの必須アスペクト カスタム エントリ

Data Catalog と Dataplex Catalog は、カスタム エントリに関して類似のコンセプトを共有しています。

標準エントリ プロパティは、Dataplex Catalog で必須アスペクトとしてモデル化されます。

システム エントリの必須アスペクト システム(Google Cloud)のエントリ BigQuery テーブルの Schema など、組み込みエンティティを記述するメタデータは、システム定義のアスペクト タイプの必須アスペクトでキャプチャされます。

Data Catalog で使用できるが Dataplex Catalog ではサポートされていない機能の詳細については、このドキュメントのDataplex Catalog でサポートされていない機能をご覧ください。

サポート対象のソース

次の Google Cloud ソースのメタデータは、Dataplex Catalog に自動的に取り込まれます。

  • Analytics Hub のエクスチェンジとリスティング
  • BigQuery のデータセット、テーブル、モデル、ルーティン、接続、リンクされたデータセット
  • Bigtable のインスタンス、クラスタ、テーブル(列ファミリーの詳細を含む)
  • Dataform リポジトリとコード アセット
  • Cloud SQL インスタンス、データベース、スキーマ、テーブル、ビュー - Cloud SQL の統合を有効にするをご覧ください。
  • Dataproc Metastore のサービス、データベース、テーブル
  • Pub/Sub トピック
  • Spanner のインスタンス、データベース、テーブル、ビュー
  • Vertex AI モデル、データセット、特徴グループ、特徴ビュー、オンライン ストア インスタンス

サードパーティ ソースから Dataplex Catalog にメタデータをインポートするには、マネージド接続パイプラインを使用します。

プロジェクトとロケーションの制約

Dataplex Catalog リソースは、さまざまなプロジェクトとロケーションに格納されます。次の制限が適用されます。

  • ロケーション:

    • エントリのロケーションは、エントリタイプのロケーションと一致するか、エントリタイプが global である必要があります。
    • エントリに追加するアスペクトは、エントリと同じロケーションに保存されているアスペクト タイプに基づくか、アスペクト タイプが global である必要があります。
    • エントリタイプは、エントリタイプと同じ場所に保存されているアスペクト タイプで構成する必要があります。
  • プロジェクト:

    • エントリタイプがカスタム アスペクト タイプを参照する場合、アスペクト タイプはエントリタイプと同じロケーションとプロジェクトに存在する必要があります。

Dataplex Catalog でサポートされていない機能

Data Catalog で利用可能な次の機能は、Dataplex Catalog ではサポートされていません。

  • 非公開アスペクトと非公開アスペクト タイプ(Data Catalog の非公開タグと非公開タグ テンプレートの類似物)のコンセプトは、Dataplex Catalog には存在しません。
  • Dataplex Catalog 検索ではポリシータグの検索はサポートされていません。そのため、Dataplex Catalog 検索では述語 policytagpolicytagid は機能しません。
  • Data Catalog のカスタム エントリ グループ、カスタム エントリ、タグ テンプレート、タグを Dataplex Catalog に移行しても、元の権限は引き継がれません。コピーしたメタデータを使用前に、IAM 権限を明示的に構成する必要があります。
  • アスペクトとカスタム エントリの管理に対する Terraform のサポートは利用できません。 代わりに、マネージド接続パイプラインまたは メタデータ インポート API メソッドを使用して、カスタム メタデータをプログラムで大規模に管理できます。(エントリ グループ、エントリタイプ、アスペクト タイプの Terraform サポートを利用できます。Terraform で Dataplex リソースをプロビジョニングするをご覧ください)。
  • Sensitive Data Protection 検査結果を Dataplex カタログに直接送信することはできません。代わりに、Sensitive Data Protection の検査結果を Data Catalog に送信してから、結果を Dataplex Catalog に移行できます。
  • API を使用して、プロジェクト全体のエントリタイプとアスペクト タイプを一覧表示することはできません。リスト リクエストのスコープはプロジェクトに限定できます。
  • ビジネス用語集(プレビュー版)の用語を Dataplex Catalog エントリの列にアタッチすることはできません。
  • Dataplex レイク、ゾーン、アセット、エンティティを Dataplex Catalog のエントリとして登録することはできません。つまり、レイク、ゾーン、アセット、エンティティにアタッチされたメタデータは、Dataplex Catalog に引き継がれません。また、Dataplex Catalog 検索を使用する場合、ゾーンとエンティティの検索はサポートされていません。また、レイクとゾーンによるフィルタリングもサポートされていません。レイクとゾーンは Dataplex Catalog とは別に使用できます。
  • 完全な再現率を保証する管理者検索はサポートされていません。

Dataplex Catalog と Data Catalog の両方でサポートされている機能とリソースの比較については、このドキュメントの Dataplex Catalog と Data Catalog の比較をご覧ください。

料金

Dataplex は、メタデータ ストレージ SKU を使用してメタデータ ストレージの料金を課金します。詳細については、Dataplex の料金をご覧ください。

以下の機能の使用に対して料金は発生しません。

  • Dataplex Catalog リソースの作成と管理
  • Dataplex Catalog の Search API 呼び出し
  • Google Cloud コンソールの Dataplex Catalog ページで実行される検索クエリ

次のステップ