Dataplex Catalog の概要

このドキュメントでは、メタデータを保存、管理、アクセスするためのプラットフォームを提供する Dataplex Catalog について説明します。

Dataplex Catalog は、BigQuery などの Google Cloud リソースと、オンプレミス リソースなどの他のリソースの統合インベントリを提供します。Dataplex Catalog は Google Cloud リソースのメタデータを自動的に取得し、サードパーティ リソースのメタデータを Dataplex Catalog に取り込みます。

Dataplex Catalog を使用すると、ビジネス メタデータと技術メタデータを追加してインベントリを拡充し、リソースのコンテキストと知識をキャプチャできます。Dataplex Catalog によって、組織全体でデータを検索して検出し、データアセットに対するデータ ガバナンスを有効にできます。

デフォルトのカタログ エクスペリエンスを Dataplex Catalog に設定できます。Data Catalog を使用している場合は、Data Catalog のコンテンツと使用状況を Dataplex Catalog に移行できます。詳細については、Data Catalog から Dataplex Catalog への移行をご覧ください。

ユースケース

Dataplex Catalog を使用すると、次のことができます。

  • データを検出して把握する。Dataplex Catalog は、組織全体のデータリソースの可視性を提供します。それにより、データ使用ニーズに関連するリソースを見つけることが可能になります。それがデータリソースのコンテキストを提供し、データ利用者のニーズに対するデータリソースの適合性を把握することに役立ちます。

  • データ ガバナンスとデータ管理を有効にする。Dataplex Catalog は、データ ガバナンスとデータ管理機能に情報を提供して強化できるメタデータを提供します。

  • メタデータ用に拡張可能で包括的なリポジトリを維持する。Dataplex Catalog は、Google Cloud リソースから自動的に収集されたメタデータを保存し、メタデータへのアクセスを提供します。Google Cloud 以外のシステムから独自のメタデータを統合できます。ビジネス メタデータと技術メタデータの追加アノテーションを使用して、すべてのメタデータを拡充できます。

Dataplex Catalog の仕組み

Dataplex Catalog は次のコンセプトに基づいています。

  • エントリ: エントリはデータアセットを表します。ほとんどのメタデータは、エントリ内のアスペクトで記述されます。これは、Data Catalog のエントリに似ています。詳細については、エントリをご覧ください。

  • アスペクト: アスペクトは、エントリ内の関連するメタデータ フィールドのセットです。アスペクトは、エントリの構成要素として解釈することも、エントリに追加するメタデータとして解釈することもできます。これは Data Catalog のタグに似ていますが、アスペクトはスタンドアロン リソースとしてではなく、エントリ内に保存されます。詳細については、アスペクトをご覧ください。

  • アスペクト タイプ: アスペクト タイプは、アスペクトに再利用可能なテンプレートです。すべてのアスペクトは、アスペクト タイプのインスタンスです。これは、Data Catalog のタグ テンプレートに似ています。詳細については、アスペクトの種類をご覧ください。

  • エントリ グループ: エントリ グループは、エントリのコンテナであり、エントリの管理単位として機能します。たとえば、エントリ グループを使用して、エントリ グループ内のエントリの Identity and Access Management アクセス制御、プロジェクトの帰属、ロケーションを構成します。これは、Data Catalog のエントリ グループに似ています。詳細については、エントリ グループをご覧ください。

  • エントリタイプ: エントリタイプは、エントリを作成するテンプレートです。このタイプでは、このタイプのエントリに必要なアスペクトのリストとして、重要なメタデータ要素が設定されます。詳細については、エントリの種類をご覧ください。

    エントリとエントリ グループ
    図 1. エントリとエントリ グループ
    アスペクト タイプとエントリタイプ
    図 2.アスペクト タイプとエントリタイプ

Dataplex Catalog のユースケースをいくつか示します。

  • データ アナリストやビジネス アナリストは、組織全体のエントリを検索し、エントリに関連付けられているメタデータを調査できます。詳細については、データアセットを検索するをご覧ください。
  • データオーナーまたはデータガバナーは、エントリにアスペクトを注釈付けることで、技術メタデータとビジネス メタデータを追加でキャプチャできます。詳細については、アスペクトを管理してメタデータを拡充するをご覧ください。
  • データオーナーまたはデータガバナーは、注釈(アスペクト タイプを使用)とカスタム エントリ(エントリタイプを使用)の標準を定義することで、メタデータに整合性をもたらすことができます。詳細については、アスペクトを管理してメタデータを拡充するをご覧ください。
  • データ エンジニアは、Google Cloud リソースやサードパーティ システムのリソースなど、リソースの統合インベントリを利用できます。Google Cloud リソースは Dataplex Catalog によって自動的に収集され、Google Cloud 以外のリソースはユーザーが収集します。詳細については、エントリを管理してカスタムソースを取り込むをご覧ください。

既存の Data Catalog ユーザーの場合

Data Catalog をすでに使用している場合は、次の点に注意してください。

  • Data Catalog で作成したカスタム エントリ、概要コンテキスト、エントリ グループは、Dataplex Catalog で使用できます。
  • 管理者は、Data Catalog のタグ テンプレートとタグのコンテンツを Dataplex Catalog で同時に利用できるように選択できます。詳細については、Data Catalog から Dataplex Catalog への移行をご覧ください。
  • Dataplex Catalog でデータアセットを検索すると、Dataplex Catalog で直接作成されたメタデータと、Data Catalog から Dataplex Catalog に移行されたメタデータの両方が含まれます。
  • Data Catalog でデータアセットを検索すると、Data Catalog で作成されたメタデータのみが含まれます。
  • Data Catalog のエントリ グループの説明が 1,024 文字を超えると、Dataplex Catalog では 1,024 文字に切り捨てられます。

Data Catalog のコンテンツと使用状況を Dataplex Catalog に移行する場合は、Data Catalog から Dataplex Catalog への移行をご覧ください。

Dataplex Catalog と Data Catalog の比較

Dataplex Catalog は、Dataplex でメタデータを管理する機能を提供します。個別のメタデータ ストレージと、Dataplex API に統合された新しい API メソッドのセットが用意されています。

Dataplex Catalog の主な機能は次のとおりです。

  • より堅牢なメタモデル

    • 入力されたエントリ。カスタム エントリに必要なメタデータ コンテンツを定義することで、最小限のメタデータ標準を適用できます。
    • カスタム エントリ用のユーザー構成可能なメタモデル。カスタム取り込みの堅牢性を高め、カスタム メタデータの一貫性と包括性を向上させます。
    • リスト、マップ、配列などのネスト構造のサポートなど、より多様で複雑なメタデータをサポート。
  • 単一のアトミックな CRUD オペレーションを通じてエントリに関連付けられたすべてのメタデータとやり取りする機能や、検索またはリストのレスポンスに関連付けられた複数のメタデータ注釈を取得する機能など、スケーラビリティが向上しました。

次の表は、Dataplex Catalog と Data Catalog の機能を比較したものです。

Dataplex Catalog と Data Catalog の比較
機能 Dataplex Catalog Data Catalog
サポートされている Google Cloud ソース このドキュメントのサポートされている Google Cloud ソースのセクションで説明されているすべてのソース。 エントリとエントリ グループで説明されているすべてのソース。
カスタムソースの取り込み

エントリタイプで定義された、管理対象の構造を持つカスタム エントリへの取り込み。

Data Catalog のカスタム エントリとエントリ グループは、Dataplex Catalog の generic エントリタイプで使用できます。

汎用カスタム エントリへの取り込み。
メタデータ拡張 エントリのメタデータ コンテキストは、アスペクトとアスペクト タイプを使用してキャプチャされます。 エントリのメタデータ コンテキストは、タグとタグ テンプレートを使用してキャプチャされます。
検索 検索は次の対象に対して実行されます。
  • サポートされている Google Cloud ソースで説明されているすべての Google Cloud ソース
  • Dataplex Catalog で作成されたカスタム エントリ
  • Dataplex Catalog で作成されたアスペクト
  • Data Catalog で作成され、Dataplex Catalog に取り込まれたカスタム エントリ

検索結果には、検索が実行されるプロジェクトと同じ VPC-SC 境界に属するリソースのみが含まれます。Google Cloud コンソールを使用する場合、これはコンソールで選択したプロジェクトです。

エントリを検索するには、検索に使用されるプロジェクトで少なくとも 1 つの Dataplex Catalog IAM ロールが必要です。検索結果に対する権限は、選択したプロジェクトとは別にチェックされます。

検索は次の対象に対して実行されます。

次の表に、Dataplex Catalog リソースと Data Catalog リソースの関係を示します。

Dataplex Catalog リソースと Data Catalog リソースのマッピング
Dataplex Catalog リソース Data Catalog リソース 説明
アスペクト タイプ(global 公開タグ テンプレート タグ テンプレートはリージョン リソースです。ただし、リージョン間でタグを作成できます。タグ テンプレートは、Dataplex Catalog の global アスペクト タイプに対応しています。
オプションのアスペクト 公開タグ Data Catalog の公開タグは、Dataplex Catalog のオプションのアスペクトに対応しています。
エントリ グループ エントリ グループ Google Cloud ソースの場合、@bigquery などのシステム エントリ グループは、Dataplex Catalog でプロジェクトごとに設定されます。
カスタム エントリの必須アスペクト カスタム エントリ

Data Catalog と Dataplex Catalog は、カスタム エントリに関して類似のコンセプトを共有しています。

標準エントリ プロパティは、Dataplex Catalog で必須のアスペクトとしてモデル化されます。

システム エントリの必須アスペクト システム(Google Cloud)のエントリ 組み込みエンティティ(BigQuery テーブルの Schema など)を記述するメタデータは、システム定義の側面タイプの必須の側面でキャプチャされます。

Data Catalog で使用できて Dataplex Catalog でサポートされていない機能の詳細については、このドキュメントのDataplex Catalog でサポートされていない機能をご覧ください。

サポート対象のソース

次の Google Cloud ソースのメタデータは、Dataplex Catalog に自動的に取り込まれます。

  • Analytics Hub のエクスチェンジとリスティング
  • BigQuery のデータセット、テーブル、モデル、ルーティン、接続、リンクされたデータセット
  • Bigtable のインスタンス、クラスタ、テーブル(列ファミリーの詳細を含む)
  • Cloud SQL インスタンス、データベース、スキーマ、テーブル、ビュー - Cloud SQL 統合を有効にするをご覧ください。
  • Dataproc Metastore のサービス、データベース、テーブル
  • Pub/Sub トピック
  • Spanner のインスタンス、データベース、テーブル、ビュー
  • Vertex AI モデル、データセット、特徴グループ、特徴ビュー、オンライン ストア インスタンス

サードパーティ ソースから Dataplex Catalog にメタデータをインポートするには、マネージド接続パイプラインを使用します。

プロジェクトとロケーションの制約

Dataplex Catalog リソースは、さまざまなプロジェクトとロケーションに保存されます。次の制限が適用されます。

  • ロケーション:

    • エントリのロケーションは、エントリタイプのロケーションと一致するか、エントリタイプが global である必要があります。
    • エントリに追加するアスペクトは、エントリと同じロケーションに保存されているアスペクト タイプに基づくか、アスペクト タイプが global である必要があります。
    • エントリタイプは、エントリタイプと同じ場所に保存されているアスペクト タイプで構成する必要があります。
  • プロジェクト:

    • エントリタイプがカスタム アスペクト タイプを参照する場合、アスペクト タイプはエントリタイプと同じロケーションとプロジェクトに存在する必要があります。

Dataplex Catalog でサポートされていない機能

Data Catalog で利用可能な次の機能は、Dataplex Catalog ではサポートされていません。

  • 非公開アスペクトとアスペクト タイプの概念は、Dataplex Catalog ではサポートされていません。アスペクトへのアクセスは、アスペクトを含むエントリに関連付けられている権限によって制御されます。詳細については、Dataplex IAM ロールをご覧ください。
  • Dataplex Catalog 検索ではポリシータグの検索はサポートされていません。そのため、Dataplex Catalog 検索では述語 policytagpolicytagid は機能しません。
  • Dataplex Catalog に移行された Data Catalog カスタム エントリの場合、現在のメタデータの既存の IAM 権限は、コピーされたメタデータに自動的に伝播されません。コピーしたメタデータを使用するには、その前に IAM 権限を明示的に構成する必要があります。
  • 機密データの保護ジョブの結果を Dataplex Catalog に送信することはできません。
  • API を使用して、プロジェクト全体のエントリタイプとアスペクト タイプを一覧表示することはできません。リスト リクエストのスコープはプロジェクトに限定できます。
  • ビジネス用語集の用語を Dataplex エントリの列にアタッチすることはできません。
  • エントリタイプの作成後に、エントリタイプの必須アスペクト タイプのリストを変更することはできません。
  • Dataplex カタログで直接作成されたエントリの場合、データリネージは Google Cloud コンソールにリネージ イベントを表示しますが、ソース、ターゲット、プロセスに関する詳細情報は表示しません。また、データリネージでは、Google Cloud コンソールのエントリのアスペクトは表示されません。

料金

Dataplex は、メタデータ ストレージ SKU を使用してメタデータ ストレージの料金を請求します。詳細については、Dataplex の料金をご覧ください。

以下の機能の使用は無料です。

  • Dataplex Catalog リソースの作成と管理
  • Dataplex Catalog の Search API 呼び出し
  • Google Cloud コンソールの Dataplex Catalog ページで実行される検索クエリ

次のステップ