Google の ADK を使ったエージェント アプリケーションを Datadog LLM Observability でモニタリングする
Abhi Das
Senior Strategic Partnerships Manager, Google
Trammell Saltzgaber
Product Marketing Manager, Datadog
※この投稿は米国時間 2026 年 1 月 24 日に、Google Cloud blog に投稿されたものの抄訳です。
Google の Agent Development Kit(ADK)は、強力なエージェント システムを構築するための基盤を提供します。こうした複数ステップのエージェントは、計画を立て、ループ処理を行い、協調し、必要に応じてツールを動的に呼び出しながら、自律的に問題を解決できます。一方で、この柔軟性は予測しにくさにもつながり、出力の欠落、想定外のコスト、セキュリティ リスクといった問題を招く可能性があります。こうした複雑さを管理できるよう、Datadog LLM Observability は ADK で構築されたシステムに対する自動計測を提供するようになりました。この統合により、エージェントの挙動を可視化してモニタリングし、コストやエラーを追跡できるほか、大がかりな手動設定を行うことなく、オフライン実験とオンライン評価を通じて、応答品質と安全性の観点からエージェントを最適化できます。
これは重要な点です。エージェント システムは複雑で、エージェント同士の相互作用に加え、LLM の非決定性によって、応答を事前に予測することが難しいためです。
こうしたエージェントを運用する際に一般的に想定されるリスクには、次のようなものがあります。
-
変化のスピード: 新しい基盤モデルは毎週のように登場し、「ベストプラクティス」とされるプロンプト設計のパターンも同じくらいの速さで変化します。そのため、チームは新しい組み合わせを継続的に評価する必要があります。
-
マルチエージェント間の受け渡し: あるエージェントが低品質な出力を生成すると、その影響がダウンストリームに連鎖し、他のエージェントが誤った判断を下す原因となる可能性があります。
-
ループとリトライ: プランナーが同じツール呼び出しに固執してしまい、検索クエリを無限に再試行するなど、ループに陥ることがあります。これにより、レイテンシの急増を招くおそれがあります。
-
見えにくいコスト: プランナーのステップが 1 つでも誤ってルーティングされるだけで、トークン使用量や API 呼び出し回数が増幅し、コストが予算を超過する可能性があります。
-
安全性と正確性: LLM の応答には、ハルシネーション、機密データの混入、プロンプト インジェクションの試みなどが含まれる場合があり、セキュリティ インシデントや顧客からの信頼低下につながるリスクがあります。
最後に、ADK は市場に存在する数多くのエージェント フレームワークの一つにすぎません。これを手作業でインストルメンテーション(計測の仕込み)しなければならないとなると、すでに煩雑でエラーが発生しやすいプロセスに、さらに学習コストが上乗せされることになります。
エージェントの判断と予期しない挙動をトレース
Datadog LLM Observability は、ADK エージェントを自動的に計測およびトレースすることで、こうした課題に対応します。コードを変更することなく、数分でエージェントをオフラインで評価し、本番環境でモニタリングを開始できます。これにより、エージェントのオーケストレーションからツール呼び出しに至るまで、すべてのステップやプランナーの判断を単一のトレース タイムライン上で可視化できます。
たとえば、エージェントがユーザーのクエリに応答する際に誤ったツールを選択した場合、想定外のエラーや不正確な応答につながることがあります。Datadog の可視化機能を使えば、どのステップで誤ったツールが選択されたのかを正確に特定できるため、トラブルシューティングが容易になり、問題の再現や原因の特定にも役立ちます。
トークン使用量とレイテンシをモニタリング
レイテンシやコストの急激な増加は、エージェント アプリケーションに問題が生じている兆候であることが少なくありません。Datadog では、ツール、ブランチ、ワークフローごとにトークン使用量とレイテンシを可視化できるため、どこでエラーが発生し、それがダウンストリームの処理にどのような影響を及ぼしたのかを明確に把握できます。
たとえば、プランナー エージェントが要約ツールを 5 回も再試行した場合、レイテンシは大幅に増加します。Datadog はこうしたループを強調表示し、処理に要した正確な時間とそれに伴うコストへの影響を可視化します。
エージェントの応答品質とセキュリティを評価
レイテンシのような運用パフォーマンス指標は重要なモニタリング シグナルですが、エージェント アプリケーションの動作状況を包括的に把握するには、LLM やエージェントの応答が持つ意味的な品質についても評価する必要があります。Datadog には、ハルシネーション、個人を特定できる情報(PII)の漏えい、プロンプト インジェクション、不適切または危険な応答を検出するための組み込み評価機能が用意されています。
さらに、ドメイン固有のチェックを行うために、LLM-as-a-judge 型の評価ツールを含むカスタム評価ツールを追加することも可能です。たとえば、検索エージェントが無関係なドキュメントを取得し、その結果として回答が話題から逸れてしまった場合、カスタム評価ツールによって、そのトレースを「検索関連性が低い」と判定できます。
テストを通じて、迅速かつ確信を持って改善を重ねる
新しいシステム プロンプトを展開すると、レイテンシの急増や出力の一貫性の低下に気付くことがあります。Datadog では、本番環境の LLM 呼び出しを Playground 上で再生し、異なるモデル、プロンプト、パラメータを試すことで、理想とする挙動に近づく構成を見つけることができます。
さらに、実際のトラフィックから構築したデータセットを用いて、複数のバージョンを並べて比較する構造化されたテストを実行し、運用面および機能面のパフォーマンスを最適化できます。ADK のインストルメンテーションによってすべてのエージェント ステップが記録されるため、デプロイ前に回帰を再現し、修正内容を検証するために必要となる完全なコンテキストを把握できます。
Datadog LLM Observability を使ってみる
Datadog LLM Observability は、Google ADK を利用したシステムのモニタリングとデバッグを簡素化し、エージェントの動作を把握しやすくします。これにより、エージェントの挙動を解析し、応答を評価し、迅速に改善を重ねながら、本番環境にデプロイする前に変更内容を検証できます。
最新バージョンの LLM Observability SDK を使って、今すぐ利用を開始できます。Datadog を初めて利用する方は、無料トライアルから始めることも可能です。
エージェントの挙動を解析し、応答を評価する方法について詳しくは、Datadog の LLM Observability ドキュメントをご覧ください。
-Google、シニア戦略的パートナーシップ担当マネージャー、Abhi Das
-Datadog、プロダクト マーケティング マネージャー、Trammell Saltzgaber 氏


