データ分析

Google Cloud Knowledge Catalog のご紹介

2026年5月1日

https://storage.googleapis.com/gweb-cloudblog-publish/images/GCN26_102_BlogHeader_2436x1200_Opt_12_Ligh.max-2500x2500.jpg

Chai Pydimukkala

Product Lead, Google Cloud

Sam McVeety

Tech Lead, Data Analytics, Engineering, Data Cloud, Google Cloud

Try Gemini Enterprise Business Edition today

The front door to AI in the workplace

Try now

※この投稿は米国時間 2026 年 4 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。

従来のデータカタログは、技術ユーザー向けの手動インベントリとして作成されており、AI エージェントが必要とする深いコンテキストではなく、テーブル構造に重点が置かれていました。エージェントがビジネス上のセマンティクスやデータ間の関係性を十分に把握できていないと、ハルシネーションや高レイテンシ、古い分析情報の生成につながります。

この問題に対処するため、Google は Dataplex を動的で常時稼働の Knowledge Catalog へと進化させています。企業向けのユニバーサルコンテキストエンジンとして、エージェントが複雑なタスクを高精度で実行できるよう支援するツールです。

Bloomberg Media のようなお客様は、すでに Knowledge Catalog を使用して、信頼できるコンテキストでエージェントを強化しています。

「Knowledge Catalog を通じて Bloomberg Media のエンタープライズメタデータとビジネスコンテキストを統合することで、Data Access AI Agent を無事にリリースできました。この社内ソリューションにより、組織全体の関係者はデータレイクを直感的に探索できるようになり、複雑なビジネス上の問いに対しては、AI が即座にわかりやすく説明します。重要なのは、信頼できる組織内のコンテキストを根拠として AI に提供することで、生成されるあらゆる分析情報の精度と品質に自信を持てるようになることです。」

- Bloomberg Media、CTO、William Anderson 氏

Knowledge Catalog は、次の 3 つの基本的な柱で構成されています。

集約: コンテキストを統合し、定義の不整合を解消
拡充: 継続的に意味を生成し、関係性をマッピング
検索: 高精度の検索でエージェントを支援

集約: データアセット全体でコンテキストを統合

真のコンテキストを構築するには、あらゆる場所に散在する情報を集約する必要があります。Knowledge Catalog は、Google とパートナーのデータプラットフォーム、セマンティックモデル、サードパーティのカタログ全体でネイティブコンテキストを集約し、それらを管理の行き届いた信頼できる情報源に一元化します。

幅広いメタデータの集約 （GA）: 真に包括的なコンテキストエンジンを構築するには、サイロをすべて解消する必要があります。Knowledge Catalog は、BigQuery、AlloyDB、Spanner、Cloud SQL、Firestore（プレビュー版）、Looker（プレビュー版）などの基盤システム全体から技術的メタデータを自動的に収集します。また、Atlan、Collibra、Datahub、Ab Initio、Anomalo などのサードパーティデータベースやパートナーカタログとの統合もサポートしており、レガシーメタデータもエージェントの枠組みに取り込むことができます。
エンタープライズ接続 （プレビュー）: 業務を本当の意味で理解するには、セマンティックコンテキストが企業内の主要システムをすべてカバーしている必要があります。そうしたシステムは、Google Cloud Lakehouse を使用し、コンテキストフェデレーションによって相互接続されます。これにより Knowledge Catalog は、Palantir、Salesforce Data360、SAP、ServiceNow、Workday などのアプリケーション、オペレーティングシステム、AI プラットフォームを迅速かつ詳細に可視化できます。たとえば、SAP のデータプロダクトは自動的に Knowledge Catalog にマッピングされます。
LookML エージェント: ビジネスロジックの定義方法を自動化します。新しい LookML エージェントは、戦略ドキュメントを自律的に読み取り、ビジネスにそのまま活用できるセマンティクスを即座に生成します。これらのセマンティックモデルを Knowledge Catalog に集約することで、コアとなるビジネスロジックを企業全体で連携させ、エージェントがアナリストと同じ定義に基づいて推論を導き出せるようにします。デベロッパーは、LookML セマンティックモデル用の新しい VS Code 拡張機能を利用し、エージェント対応のあらゆる IDE からセマンティックレイヤのライフサイクル全体を扱えます。
BigQuery measures（プレビュー版）: プログラマティックなビジネスロジックを SQL エンジンに直接組み込むことで、データの整合性を再定義します。BigQuery measures により、すべての計算が汎用的に再利用可能になり、かつ数学的に正確であることが保証されます。Knowledge Catalog は最終的なアグリゲータとして機能し、BigQuery measures と LookML を管理の行き届いたセマンティック基盤に一元化します。
データプロダクト（GA）: データプロダクトは、エージェントを支えるデータアセットとコンテキストをパッケージ化し、本番環境での信頼性を高めます。この自己完結型のブロックには、インテント、SLA、ガバナンスの制約が組み込まれており、複雑な AI ユースケースをスケーリングするための基本要素を提供します。

拡充: 継続的な学習を通じて意味を生成する

Knowledge Catalog は継続的にデータを拡充します。手動によるキュレーションに留まらず、構造化スキーマ、クエリログ、BI セマンティックモデルを能動的に分析し、非構造化データからエンティティ間の関係性を抽出します。こうした継続的なデータ拡充機能を、チームが実際に作業する環境に提供します。

スマートストレージおよびオブジェクトコンテキスト API（プレビュー版）: Google Cloud Storage（GCS）にネイティブで組み込まれたスマートストレージは、ファイルがバケットに保存されると、即座かつ自動的にタグ付け、埋め込み、メタデータによる拡充を行います。このインテリジェンス機能を Knowledge Catalog に統合することで、エージェントは非構造化データを即座に発見できるようになります。
高度なマルチモーダルメタデータ抽出（プレビュー）: 複雑な非構造化データの集合に対しては、Knowledge Catalog は Gemini とネイティブで統合されているため、有用なビジネス情報を特定するとともに、非構造化コンテンツから直接エンティティを抽出して、複雑なビジネス関係をマッピングするパイプラインを自動的に構築できます。
コンテキストの自動キュレーション（プレビュー版）: Knowledge Catalog は、データセット、データプロダクト、関係性、検証済みの SQL パターンに対して、ビジネス用語集を含む自然言語の説明を自動生成します。これにより、人間とエージェントの双方が推測に頼ることなくデータを活用できます。こうした隠れた関係性やインテントに基づくパターンを推論することで、データとビジネスの実際の関連性を示す、動的に進化し続けるマップを構築します。
検証済みのクエリとセマンティックガードレール（プレビュー版）: AI の失敗の主な原因の一つは、ハルシネーションによる誤ったロジックや推測に基づく SQL 結合です。これを防ぐために、Knowledge Catalog には検証済みの SQL パターンと事前生成された自然言語の質問が用意されています。

検索: 高精度で安全なデータ取得によるエージェント活用の拡大

膨大なコンテキストレイヤを作成することは重要ですが、エージェント時代では、検索は新しいクエリ経路に進化しています。自律型エージェントは、ユーザーに代わって作業する際に非常に高速に反復処理を行います。エンタープライズ規模での最大の問題は、スピード、関連性、グローバルなリーチ、セキュリティです。

高精度セマンティック検索（GA）: Knowledge Catalog は、Google の数十年にわたるイノベーションを活用したハイブリッド検索スタックを使用します。Google 検索と同じ高度なクエリ書き換え技術と ML 技術を基盤として構築されており、エージェントが必要とする 1 秒未満のレイテンシと的確な関連性を提供します。エージェントがプロンプトを受け取ると、Knowledge Catalog は適切なコンテキストを即座にランク付けし、リアルタイムでエージェントに返します。
アクセス制御対応の検索: エージェント時代には、適切なデータとそのコンテキストを見つけることが重要です。エージェントが間違ったコンテキストを取得すると、ハルシネーションが発生します。信頼性を確保するために、このグローバル検索では、ソースシステムで定義されているメタデータアクセス権限が尊重されます。これにより、エージェントは明示的に閲覧を許可されたアセットのみを取得、操作します。
測定可能なコンテキスト評価: 長期的な精度を確保するために、堅牢な評価フレームワークで検索機能を強化しています。これにより、コンテキスト構築が、当て推量から測定可能なエンジニアリングプロセスへと変わります。そのため、チームはさまざまなコンテキスト構築戦略を定量的に検証して改善を繰り返し、エージェントに提供するコンテキストの関連性と質を継続的に最適化できます。

基盤となるデータプロダクト、高精度の検索、ガードレールを整備することで、信頼性が高い状態で高度な AI をデプロイできます。その代表的な例が、Knowledge Catalog を活用した Gemini Enterprise の Deep Research エージェント（プレビュー版）です。このエージェントは Knowledge Catalog にネイティブで対応しており、ライブのビジネスデータ、社内ドキュメント、ウェブ調査を統合し、非常に複雑な質問にも回答できます。決定論的な精度と詳細な引用を備え、これまで数週間の手作業が必要だったタスクを数分で実行します。

エージェントにビジネスにおける暗黙のルールを推測させるのはやめましょう。コンテキストを一度構築すれば、あとはエージェントに任せることができます。

Knowledge Catalog を今すぐお試しください。

- Chai Pydimukkala、プロダクトリーダー、Google Cloud

- Sam McVeety、テクニカルリーダー、Google Cloud

投稿先