このドキュメントでは、メタデータを保存、管理し、アクセスするためのプラットフォームを備えた Dataplex Catalog について説明します。
Dataplex Catalog は、BigQuery などのGoogle Cloud リソースと、オンプレミス リソースなどの他のリソースの統合インベントリを備えています。Dataplex Catalog は Google Cloud リソースのメタデータを自動的に取得します。ユーザーは、サードパーティ リソースのメタデータを Dataplex Catalog に取り込みます。
Dataplex Catalog を使用すると、ビジネス メタデータとテクニカル メタデータを追加してインベントリを拡充し、リソースのコンテキストと知識を取得できます。Dataplex Catalog によって、組織全体でデータを検索して検出し、データアセットに対するデータ ガバナンスを有効にできます。
デフォルトのカタログ エクスペリエンスを Dataplex Catalog に設定できます。 Data Catalog を使用している場合は、Data Catalog のコンテンツと使用状況を Dataplex Catalog に移行します。 詳細については、Data Catalog から Dataplex Catalog に移行するをご覧ください。
ユースケース
Dataplex Catalog を使用すると、次のことができます。
データを検出して把握する。Dataplex Catalog は、組織全体のデータリソースを可視化できます。それにより、データ使用ニーズに関連するリソースを見つけることができます。データリソースのコンテキストを提供します。これにより、データ利用者のニーズに対するデータリソースの適合性を把握できます。
データ ガバナンスとデータ管理を有効にする。Dataplex Catalog が提供するメタデータによって、データ ガバナンスとデータ管理機能に情報を付与して強化することが可能です。
メタデータ用に拡張可能で包括的なリポジトリを維持する。 Dataplex Catalog は、 Google Cloud リソースから自動的に収集されたメタデータを保存し、メタデータへのアクセスを提供します。Google Cloud 以外のシステムから独自のメタデータを統合できます。ビジネス メタデータとテクニカル メタデータの追加アノテーションを使用して、すべてのメタデータを拡充できます。
Dataplex Catalog の仕組み
Dataplex Catalog は次のコンセプトに基づいています。
エントリ: エントリはデータアセットを表します。ほとんどのメタデータは、エントリ内のアスペクトで記述されます。これは、Data Catalog のエントリと類似しています。詳細については、エントリをご覧ください。
アスペクト: アスペクトは、エントリ内の関連する一連のメタデータ フィールドです。アスペクトは、エントリの構成要素、またはエントリに追加するメタデータとして解釈できます。これは Data Catalog のタグに似ていますが、アスペクトはスタンドアロン リソースとしてではなく、エントリ内に保存されます。 詳細については、アスペクトをご覧ください。
アスペクト タイプ: アスペクト タイプは、アスペクトに再利用可能なテンプレートです。すべてのアスペクトは、アスペクト タイプのインスタンスです。これは、Data Catalog のタグ テンプレートに類似しています。詳細については、アスペクト タイプをご覧ください。
エントリ グループ: エントリ グループは、エントリのコンテナであり、エントリの管理単位として機能します。たとえば、エントリ グループを使用して、エントリ グループ内のエントリの Identity and Access Management アクセス制御、プロジェクトのアトリビューション、ロケーションを構成します。これは、Data Catalog のエントリ グループに類似しています。詳細については、エントリ グループをご覧ください。
エントリタイプ: エントリタイプは、エントリを作成するためのテンプレートです。このタイプでは、このタイプのエントリに必要なアスペクトのリストとして、重要なメタデータ要素が設定されます。詳細については、エントリタイプをご覧ください。
図 1. エントリとエントリ グループ 図 2.アスペクト タイプとエントリタイプ
Dataplex Catalog のユースケースの一部を以下に示します。
- データ アナリストやビジネス アナリストは、組織全体のエントリを検索し、エントリに関連付けられているメタデータを調査できます。詳細については、データアセットを検索するをご覧ください。
- データ オーナーまたはデータ ガバナーは、エントリにアスペクトによる注釈を付けることで、技術メタデータとビジネス メタデータを追加でキャプチャできます。詳細については、アスペクトを管理してメタデータを拡充するをご覧ください。
- データオーナーまたはデータガバナーは、注釈(アスペクト タイプを使用)とカスタム エントリ(エントリタイプを使用)の標準を定義することで、メタデータに整合性をもたらすことができます。詳細については、アスペクトを管理してメタデータを拡充するをご覧ください。
- データ エンジニアは、 Google Cloud リソースやサードパーティ システムのリソースなど、リソースの統合インベントリを利用できます。 Google Cloud リソースは Dataplex Catalog によって自動的に収集され、Google Cloud 以外のリソースはユーザーが収集します。詳細については、エントリを管理してカスタムソースを取り込むをご覧ください。
既存の Data Catalog ユーザーの場合
Data Catalog をすでに使用している場合は、次の点にご注意ください。
- Data Catalog で作成したカスタム エントリ、概要コンテキスト、エントリ グループは、Dataplex Catalog で使用できます。
- 管理者は、Data Catalog のタグ テンプレートとタグのコンテンツを Dataplex Catalog で同時に利用できるように選択できます。詳細については、Data Catalog から Dataplex Catalog に移行するをご覧ください。
- Dataplex Catalog でデータアセットを検索すると、Dataplex Catalog で直接作成されたメタデータと、Data Catalog から Dataplex Catalog に移行されたメタデータの両方が含まれます。
- Data Catalog でデータアセットを検索すると、Data Catalog で作成されたメタデータのみが含まれます。
- Data Catalog のエントリ グループの説明が 1,024 文字を超えると、Dataplex Catalog では 1,024 文字に切り捨てられます。
Data Catalog のコンテンツと使用状況を Dataplex Catalog に移行する方法については、Data Catalog から Dataplex Catalog への移行をご覧ください。
Dataplex Catalog と Data Catalog の比較
Dataplex Catalog は、Dataplex でメタデータを管理する機能を提供します。個別のメタデータ ストレージと、Dataplex API に統合された新しい API メソッドのセットが用意されています。
Dataplex Catalog の主な機能は次のとおりです。
より堅牢なメタモデル
- タイプ化されたエントリ。カスタム エントリに必要なメタデータ コンテンツを定義することで、最小限のメタデータ標準を適用できます。
- カスタム エントリ用のユーザー構成可能なメタモデル。カスタム取り込みの堅牢性を高め、カスタム メタデータの一貫性と包括性を向上させます。
- リスト、マップ、配列などのネスト構造のサポートなど、より多様で複雑なメタデータをサポート。
単一のアトミックな CRUD オペレーションを通じてエントリに関連付けられたすべてのメタデータとやり取りする機能や、検索またはリストのレスポンスに関連付けられた複数のメタデータ注釈を取得する機能など、向上したスケーラビリティ。
次の表は、Dataplex Catalog と Data Catalog の機能を比較したものです。
機能 | Dataplex Catalog | Data Catalog |
---|---|---|
サポート対象の Google Cloud ソース | このドキュメントのサポートされている Google Cloud ソースのセクションに記載されているすべてのソース。 | エントリとエントリ グループで説明されているすべてのソース。 |
カスタムソースの取り込み | エントリタイプで定義された、管理対象の構造を持つカスタム エントリへの取り込み。 Data Catalog のカスタム エントリとエントリ グループは、Dataplex Catalog の | 汎用カスタム エントリへの取り込み。 |
メタデータ拡張 | エントリのメタデータ コンテキストは、アスペクトとアスペクト タイプを使用してキャプチャされます。 | エントリのメタデータ コンテキストは、タグとタグ テンプレートを使用してキャプチャされます。 |
検索 | 検索は次の対象に対して実行されます。
検索結果には、検索が実行されるプロジェクトと同じ組織と同じ VPC-SC 境界に属するリソースのみが含まれます。Google Cloud コンソールを使用する場合、これはコンソールで選択したプロジェクトです。 エントリを検索するには、検索に使用されるプロジェクトで少なくとも 1 つの Dataplex Catalog IAM ロールが必要です。検索結果に対する権限は、選択したプロジェクトとは別にチェックされます。 |
検索は次の対象に対して実行されます。
|
データリネージ |
データリネージは、Dataplex API を使用してアセットノードのエントリの詳細を取得します。 Google Cloud コンソールに、アタッチされたアスペクトが表示されます。 |
データリネージは、Data Catalog API を使用してアセットノードのエントリの詳細を取得します。 Google Cloud コンソールに、アタッチされたタグと用語集の用語が表示されます。 |
次の表に、Dataplex Catalog リソースと Data Catalog リソースの関係を示します。
Dataplex Catalog リソース | Data Catalog リソース | 説明 |
---|---|---|
アスペクト タイプ(global ) |
公開タグ テンプレート | タグ テンプレートはリージョン リソースです。ただし、これらを使用してリージョン間でタグを作成できます。タグ テンプレートは、Dataplex Catalog の global アスペクト タイプに対応しています。 |
オプションのアスペクト | 公開タグ | Data Catalog の公開タグは、Dataplex Catalog のオプションのアスペクトに対応しています。 |
エントリ グループ | エントリ グループ | Google Cloud ソースの場合、@bigquery などのシステム エントリ グループは、Dataplex Catalog でプロジェクトごとに設定されます。 |
カスタム エントリの必須アスペクト | カスタム エントリ | Data Catalog と Dataplex Catalog は、カスタム エントリに関して類似のコンセプトを共有しています。 標準エントリ プロパティは、Dataplex Catalog で必須アスペクトとしてモデル化されます。 |
システム エントリの必須アスペクト | システム(Google Cloud)のエントリ | BigQuery テーブルの Schema など、組み込みエンティティを記述するメタデータは、システム定義のアスペクト タイプの必須アスペクトでキャプチャされます。 |
Data Catalog で使用できるが Dataplex Catalog ではサポートされていない機能の詳細については、このドキュメントのDataplex Catalog でサポートされていない機能をご覧ください。
サポート対象のソース
次の Google Cloud ソースのメタデータは、Dataplex Catalog に自動的に取り込まれます。
- Analytics Hub のエクスチェンジとリスティング
- BigQuery のデータセット、テーブル、モデル、ルーティン、接続、リンクされたデータセット
- Bigtable のインスタンス、クラスタ、テーブル(列ファミリーの詳細を含む)
- Dataform リポジトリとコード アセット
- Cloud SQL インスタンス、データベース、スキーマ、テーブル、ビュー - Cloud SQL の統合を有効にするをご覧ください。
- Dataproc Metastore のサービス、データベース、テーブル
- Pub/Sub トピック
- Spanner のインスタンス、データベース、テーブル、ビュー
- Vertex AI モデル、データセット、特徴グループ、特徴ビュー、オンライン ストア インスタンス
サードパーティ ソースから Dataplex Catalog にメタデータをインポートするには、マネージド接続パイプラインを使用します。
プロジェクトとロケーションの制約
Dataplex Catalog リソースは、さまざまなプロジェクトとロケーションに格納されます。次の制限が適用されます。
ロケーション:
- エントリのロケーションは、エントリタイプのロケーションと一致するか、エントリタイプが
global
である必要があります。 - エントリに追加するアスペクトは、エントリと同じロケーションに保存されているアスペクト タイプに基づくか、アスペクト タイプが
global
である必要があります。 - エントリタイプは、エントリタイプと同じ場所に保存されているアスペクト タイプで構成する必要があります。
- エントリのロケーションは、エントリタイプのロケーションと一致するか、エントリタイプが
プロジェクト:
- エントリタイプがカスタム アスペクト タイプを参照する場合、アスペクト タイプはエントリタイプと同じロケーションとプロジェクトに存在する必要があります。
Dataplex Catalog でサポートされていない機能
Data Catalog で利用可能な次の機能は、Dataplex Catalog ではサポートされていません。
- 非公開アスペクトと非公開アスペクト タイプ(Data Catalog の非公開タグと非公開タグ テンプレートの類似物)のコンセプトは、Dataplex Catalog には存在しません。
- Dataplex Catalog 検索ではポリシータグの検索はサポートされていません。そのため、Dataplex Catalog 検索では述語
policytag
とpolicytagid
は機能しません。 - Data Catalog のカスタム エントリ グループ、カスタム エントリ、タグ テンプレート、タグを Dataplex Catalog に移行しても、元の権限は引き継がれません。コピーしたメタデータを使用前に、IAM 権限を明示的に構成する必要があります。
- アスペクトとカスタム エントリの管理に対する Terraform のサポートは利用できません。 代わりに、マネージド接続パイプラインまたは メタデータ インポート API メソッドを使用して、カスタム メタデータをプログラムで大規模に管理できます。(エントリ グループ、エントリタイプ、アスペクト タイプの Terraform サポートを利用できます。Terraform で Dataplex リソースをプロビジョニングするをご覧ください)。
- Sensitive Data Protection 検査結果を Dataplex カタログに直接送信することはできません。代わりに、Sensitive Data Protection の検査結果を Data Catalog に送信してから、結果を Dataplex Catalog に移行できます。
- API を使用して、プロジェクト全体のエントリタイプとアスペクト タイプを一覧表示することはできません。リスト リクエストのスコープはプロジェクトに限定できます。
- ビジネス用語集(プレビュー版)の用語を Dataplex Catalog エントリの列にアタッチすることはできません。
- Dataplex レイク、ゾーン、アセット、エンティティを Dataplex Catalog のエントリとして登録することはできません。つまり、レイク、ゾーン、アセット、エンティティにアタッチされたメタデータは、Dataplex Catalog に引き継がれません。また、Dataplex Catalog 検索を使用する場合、ゾーンとエンティティの検索はサポートされていません。また、レイクとゾーンによるフィルタリングもサポートされていません。レイクとゾーンは Dataplex Catalog とは別に使用できます。
- 完全な再現率を保証する管理者検索はサポートされていません。
Dataplex Catalog と Data Catalog の両方でサポートされている機能とリソースの比較については、このドキュメントの Dataplex Catalog と Data Catalog の比較をご覧ください。
料金
Dataplex は、メタデータ ストレージ SKU を使用してメタデータ ストレージの料金を課金します。詳細については、Dataplex の料金をご覧ください。
以下の機能の使用に対して料金は発生しません。
- Dataplex Catalog リソースの作成と管理
- Dataplex Catalog の Search API 呼び出し
- Google Cloud コンソールの Dataplex Catalog ページで実行される検索クエリ
次のステップ
- Dataplex Catalog でリソースを検索する方法を確認する。
- アスペクトを管理してメタデータを拡充する方法を確認する。
- エントリを管理してカスタムソースを取り込む方法を確認する。
- Data Catalog から Dataplex Catalog への移行の詳細を確認する。