Google Cloud Knowledge Catalog のご紹介

Chai Pydimukkala
Product Lead, Google Cloud
Sam McVeety
Tech Lead, Google Cloud
※この投稿は米国時間 2026 年 4 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。
従来のデータカタログは、技術ユーザー向けの手動インベントリとして作成されており、AI エージェントが必要とする深いコンテキストではなく、テーブル構造に重点が置かれていました。エージェントがビジネス上のセマンティクスやデータ間の関係性を十分に把握できていないと、ハルシネーションや高レイテンシ、古い分析情報の生成につながります。
この問題に対処するため、Google は Dataplex を動的で常時稼働の Knowledge Catalog へと進化させています。企業向けのユニバーサル コンテキスト エンジンとして、エージェントが複雑なタスクを高精度で実行できるよう支援するツールです。
Bloomberg Media のようなお客様は、すでに Knowledge Catalog を使用して、信頼できるコンテキストでエージェントを強化しています。
「Knowledge Catalog を通じて Bloomberg Media のエンタープライズ メタデータとビジネス コンテキストを統合することで、Data Access AI Agent を無事にリリースできました。この社内ソリューションにより、組織全体の関係者はデータレイクを直感的に探索できるようになり、複雑なビジネス上の問いに対しては、AI が即座にわかりやすく説明します。重要なのは、信頼できる組織内のコンテキストを根拠として AI に提供することで、生成されるあらゆる分析情報の精度と品質に自信を持てるようになることです。」
- Bloomberg Media、CTO、William Anderson 氏
Knowledge Catalog は、次の 3 つの基本的な柱で構成されています。
-
集約: コンテキストを統合し、定義の不整合を解消
-
拡充: 継続的に意味を生成し、関係性をマッピング
-
検索: 高精度の検索でエージェントを支援
集約: データアセット全体でコンテキストを統合
真のコンテキストを構築するには、あらゆる場所に散在する情報を集約する必要があります。Knowledge Catalog は、Google とパートナーのデータ プラットフォーム、セマンティック モデル、サードパーティのカタログ全体でネイティブ コンテキストを集約し、それらを管理の行き届いた信頼できる情報源に一元化します。
-
幅広いメタデータの集約 (GA): 真に包括的なコンテキスト エンジンを構築するには、サイロをすべて解消する必要があります。Knowledge Catalog は、BigQuery、AlloyDB、Spanner、Cloud SQL、Firestore(プレビュー版)、Looker(プレビュー版)などの基盤システム全体から技術的メタデータを自動的に収集します。また、Atlan、Collibra、Datahub、Ab Initio、Anomalo などのサードパーティ データベースやパートナー カタログとの統合もサポートしており、レガシー メタデータもエージェントの枠組みに取り込むことができます。
-
エンタープライズ接続 (プレビュー): 業務を本当の意味で理解するには、セマンティック コンテキストが企業内の主要システムをすべてカバーしている必要があります。そうしたシステムは、Google Cloud Lakehouse を使用し、コンテキスト フェデレーションによって相互接続されます。これにより Knowledge Catalog は、Palantir、Salesforce Data360、SAP、ServiceNow、Workday などのアプリケーション、オペレーティング システム、AI プラットフォームを迅速かつ詳細に可視化できます。たとえば、SAP のデータ プロダクトは自動的に Knowledge Catalog にマッピングされます。
-
LookML エージェント: ビジネス ロジックの定義方法を自動化します。新しい LookML エージェントは、戦略ドキュメントを自律的に読み取り、ビジネスにそのまま活用できるセマンティクスを即座に生成します。これらのセマンティック モデルを Knowledge Catalog に集約することで、コアとなるビジネス ロジックを企業全体で連携させ、エージェントがアナリストと同じ定義に基づいて推論を導き出せるようにします。デベロッパーは、LookML セマンティック モデル用の新しい VS Code 拡張機能を利用し、エージェント対応のあらゆる IDE からセマンティック レイヤのライフサイクル全体を扱えます。
-
BigQuery measures(プレビュー版): プログラマティックなビジネス ロジックを SQL エンジンに直接組み込むことで、データの整合性を再定義します。BigQuery measures により、すべての計算が汎用的に再利用可能になり、かつ数学的に正確であることが保証されます。Knowledge Catalog は最終的なアグリゲータとして機能し、BigQuery measures と LookML を管理の行き届いたセマンティック基盤に一元化します。
-
データ プロダクト(GA): データ プロダクトは、エージェントを支えるデータアセットとコンテキストをパッケージ化し、本番環境での信頼性を高めます。この自己完結型のブロックには、インテント、SLA、ガバナンスの制約が組み込まれており、複雑な AI ユースケースをスケーリングするための基本要素を提供します。
拡充: 継続的な学習を通じて意味を生成する
Knowledge Catalog は継続的にデータを拡充します。手動によるキュレーションに留まらず、構造化スキーマ、クエリログ、BI セマンティック モデルを能動的に分析し、非構造化データからエンティティ間の関係性を抽出します。こうした継続的なデータ拡充機能を、チームが実際に作業する環境に提供します。
-
スマート ストレージおよびオブジェクト コンテキスト API(プレビュー版): Google Cloud Storage(GCS)にネイティブで組み込まれたスマート ストレージは、ファイルがバケットに保存されると、即座かつ自動的にタグ付け、埋め込み、メタデータによる拡充を行います。このインテリジェンス機能を Knowledge Catalog に統合することで、エージェントは非構造化データを即座に発見できるようになります。
-
高度なマルチモーダル メタデータ抽出(プレビュー): 複雑な非構造化データの集合に対しては、Knowledge Catalog は Gemini とネイティブで統合されているため、有用なビジネス情報を特定するとともに、非構造化コンテンツから直接エンティティを抽出して、複雑なビジネス関係をマッピングするパイプラインを自動的に構築できます。
-
コンテキストの自動キュレーション(プレビュー版): Knowledge Catalog は、データセット、データ プロダクト、関係性、検証済みの SQL パターンに対して、ビジネス用語集を含む自然言語の説明を自動生成します。これにより、人間とエージェントの双方が推測に頼ることなくデータを活用できます。こうした隠れた関係性やインテントに基づくパターンを推論することで、データとビジネスの実際の関連性を示す、動的に進化し続けるマップを構築します。
-
検証済みのクエリとセマンティック ガードレール(プレビュー版): AI の失敗の主な原因の一つは、ハルシネーションによる誤ったロジックや推測に基づく SQL 結合です。これを防ぐために、Knowledge Catalog には検証済みの SQL パターンと事前生成された自然言語の質問が用意されています。
検索: 高精度で安全なデータ取得によるエージェント活用の拡大
膨大なコンテキスト レイヤを作成することは重要ですが、エージェント時代では、検索は新しいクエリ経路に進化しています。自律型エージェントは、ユーザーに代わって作業する際に非常に高速に反復処理を行います。エンタープライズ規模での最大の問題は、スピード、関連性、グローバルなリーチ、セキュリティです。
-
高精度セマンティック検索(GA): Knowledge Catalog は、Google の数十年にわたるイノベーションを活用したハイブリッド検索スタックを使用します。Google 検索と同じ高度なクエリ書き換え技術と ML 技術を基盤として構築されており、エージェントが必要とする 1 秒未満のレイテンシと的確な関連性を提供します。エージェントがプロンプトを受け取ると、Knowledge Catalog は適切なコンテキストを即座にランク付けし、リアルタイムでエージェントに返します。
-
アクセス制御対応の検索: エージェント時代には、適切なデータとそのコンテキストを見つけることが重要です。エージェントが間違ったコンテキストを取得すると、ハルシネーションが発生します。信頼性を確保するために、このグローバル検索では、ソースシステムで定義されているメタデータ アクセス権限が尊重されます。これにより、エージェントは明示的に閲覧を許可されたアセットのみを取得、操作します。
-
測定可能なコンテキスト評価: 長期的な精度を確保するために、堅牢な評価フレームワークで検索機能を強化しています。これにより、コンテキスト構築が、当て推量から測定可能なエンジニアリング プロセスへと変わります。そのため、チームはさまざまなコンテキスト構築戦略を定量的に検証して改善を繰り返し、エージェントに提供するコンテキストの関連性と質を継続的に最適化できます。
基盤となるデータ プロダクト、高精度の検索、ガードレールを整備することで、信頼性が高い状態で高度な AI をデプロイできます。その代表的な例が、Knowledge Catalog を活用した Gemini Enterprise の Deep Research エージェント(プレビュー版)です。このエージェントは Knowledge Catalog にネイティブで対応しており、ライブのビジネスデータ、社内ドキュメント、ウェブ調査を統合し、非常に複雑な質問にも回答できます。決定論的な精度と詳細な引用を備え、これまで数週間の手作業が必要だったタスクを数分で実行します。
エージェントにビジネスにおける暗黙のルールを推測させるのはやめましょう。コンテキストを一度構築すれば、あとはエージェントに任せることができます。
Knowledge Catalog を今すぐお試しください。
- Chai Pydimukkala、プロダクト リーダー、Google Cloud
- Sam McVeety、テクニカル リーダー、Google Cloud


