リネージで AI の信頼とコンテキストを構築(列レベルの粒度に対応)
Paulina Trzeciak
Product Manager
※この投稿は米国時間 2025 年 10 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。
効果的な AI システムは、コンテキストと継続的な信頼を基盤として動作します。Google Cloud の統合データ ガバナンス プラットフォームである Dataplex Universal Catalog では、データを記述するメタデータが静的ではなくなります。AI アプリケーションは、このカタログでデータの場所と信頼できるデータを把握できます。
しかし、データ パイプラインが複雑になると、データの流れがわかりにくくなり、情報の出所から最終的な影響までを追跡することが難しくなります。この課題を解決するために、Google は Dataplex のリネージ機能をオブジェクトレベルから列レベルに拡張し、まずは BigQuery のサポートから開始します。
「AI 戦略を推進するには、データに対する絶対的な信頼が必要です。列レベルのリネージは、それを実現します。これは、責任を持って確実にデータを管理するための基盤です。」- Verizon、データおよび AI ガバナンス エンジニアリング担当 AVP、Latheef Syed 氏
オブジェクトレベルのリネージは、テーブル全体の最上位の接続を追跡しますが、列レベルのリネージは、単一のデータ列が移動・変換される特定の経路をきめ細かくチャート化します。これにより、データから AI へのエコシステムを管理するための動的で詳細なマップが提供され、エージェント AI アプリケーションをコンテキストに応じて根拠づけできるようになります。リネージが追加料金なしで列レベルにアップグレードされます。
データに関する重要な質問に答える
データ プロフェッショナルは、BigQuery データセットの複雑な関係について正確な回答を必要とすることがよくあります。列レベルのリネージは、データフローのグラフを提供し、このグラフをたどることで、これらの答えをすばやく見つけることができます。次のことを行えるようになりました。
-
AI モデルで使用される列が信頼できるソースからのものであることを確認する
-
変更を行う前に、1 列への変更が下流の他の列にどのように影響するかを把握する
-
列の上流の変換を調べることで、列の問題の根本原因を追跡する
-
組織全体で列レベルのセンシティブ データが正しく使用されていることを確認する
「列レベルのリネージは、当社のデータ エコシステムの信頼できるマップを次のレベルに引き上げます。変更の影響を完全に理解し、問題の原因をたどり、コンプライアンスを最も詳細なレベルまで確保するために必要な精度の高いツールです。」 - Verizon、データ / AI およびプロダクト エンジニアリング担当 AVP、Arvind Rajagopalan 氏


リネージを視覚的に探索
Dataplex では、列レベルのリネージ関係をインタラクティブに視覚的に表現できるようになりました。テーブル内の 1 つの列を選択すると、その列の上流と下流のすべての接続のグラフが表示されます。アセットレベルでグラフを操作する際に、列レベルにドリルダウンして、プロセスによって影響を受ける特定の列を確認できます。また、2 つの異なるアセットの列間の直接的なリネージパスを可視化して、それらの関係に焦点を当てたビューを表示することもできます。
AI モデルの列レベルのトレース
AI および ML モデルのトレーニングに使用されるテーブルには、さまざまなソースからさまざまなパスをたどってデータが取り込まれることが多く、データの流れを詳細に把握することが重要です。たとえば、複雑な AI/ML 特徴テーブルでは、モデル トレーニング用の単一のテーブルに多数の列が含まれる場合があります。列レベルのリネージでは、ある列が信頼できる監査済みの財務システムから派生したものであり、別の列が一時的なウェブログから派生したものであることを検証できます。テーブルレベルのリネージでは、この重要な違いが不明瞭になり、すべての特徴が同じ信頼レベルで扱われます。
コンテキスト アウェア AI エージェントの実現
タスクを自動化し、データに関する複雑な質問に回答するために AI エージェントを開発する企業が増えています。これらのエージェントが効果を発揮するには、ビジネスと組織のコンテキストを深く理解する必要があります。列レベルのリネージによって提供される詳細なメタデータが、この必要なコンテキストを提供します。たとえば、エージェントは、名前が似ている指標を区別できます。各列のパス(使用頻度や鮮度など)をトレースすることで、変更の影響を受けた場合の列の重要性や、トラブルシューティング時の影響の重大度に関するコンテキストをエージェントに提供します。データアセットとその関係に関する豊富な事実に基づいたマップに AI エージェントをグラウンディングすることで、より正確で信頼性の高いエージェント ワークフローを構築できます。
使ってみる
BigQuery の列レベルのリネージは、Dataplex で今すぐご利用いただけます。
-プロダクト マネージャー、Paulina Trzeciak



