貴社のインフラストラクチャは AI エージェントに対応していますか?
Dave McCarthy
Research Vice President, Cloud and Edge Infrastructure Services, IDC
※この投稿は米国時間 2025 年 12 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。
編集者注: 本日は、AI インフラストラクチャの TCO(総所有コスト)危機とそれに対処する方法について、IDC の Dave McCarthy 氏にお話を伺います。同氏の分析をお読みください。
AI をめぐる状況は劇的に変化しています。ここ数年、業界はリソースを大量に消費する大規模なプロセスである生成 AI モデルのトレーニングに焦点を絞ってきました。しかし現在、焦点はさらに大きな新しい課題である推論へと急速に移行しつつあります。
推論(トレーニング済みモデルを使用してリアルタイムの予測を行うプロセス)は、もはや AI ライフサイクルの一部ではなくなり、急速に主要なワークロードになりつつあります。IDC が最近 1,300 人を超える全世界の AI 意思決定者を対象に実施したアンケート調査では、推論はすでに AI ワークロードの最大のセグメントとして挙げられ、すべての AI オペレーションの 47% を占めていました。
この高い比率は、実世界のアプリケーションの膨大な数によるものです。モデルは定期的にトレーニングされながら、すべてのユーザークエリ、API 呼び出し、おすすめで推論のために休みなく使用されます。また、こうした推論の急増はハイブリッド環境全体に広がっていることを認識する必要があります。IDC のアンケートの回答者によると、ワークロードの 63% はクラウド内に存在します。クラウドは、常にコンテンツ作成や chatbot などのスケーラブルなアプリケーションの標準であり続けます。一方、ワークロードの 37% はオンプレミス インフラストラクチャにデプロイされます。これは通常、ロボット工学や実世界と直接やり取りするその他のシステムのユースケースに関連しています。
現在、この需要を増大させている新たな要因が、自律型および半自律型の AI エージェントの台頭です。
これらの「エージェント ワークフロー」は、AI の新たな論理的な進化の現れです。このワークフローでは、モデルは単一のプロンプトに回答するだけでなく、複雑な複数ステップのタスクを実行します。「パリ旅行の計画を立てて」と指示された AI エージェントは、フライトの検索、ホテルの空室状況の確認、レビューの比較、場所の地図表示など、数十もの互いに関連するオペレーションを実行する必要があります。各ステップは推論オペレーションであり、さまざまなシステム間でオーケストレートする必要がある一連のリクエストを作成します。
こうした需要の急増は、多くの組織で重大な脆弱性を露呈させています。それが AI 効率のギャップです。
エージェントの時代の TCO 危機
AI 効率のギャップとは、AI スタックの理論上のパフォーマンスと実世界のパフォーマンス実績の差異です。このギャップが TCO(総所有コスト)危機を招きます。ギャップの原因はシステム全体の非効率性です。
IDC の調査によると、半数以上(54.3%)の組織が複数の AI フレームワークとハードウェア プラットフォームを使用しています。この柔軟性は有益に思えますが、驚くべき短所があり、92% の組織が効率に悪影響を及ぼしたと報告しています。
最適化されていない異種サービスを寄せ集めた断片的な「パッチワーク」アプローチは、次のような問題を波及的に生じさせます。
-
回答者の 41.6% がコンピューティング費用の増加を報告: 冗長なプロセスと低い利用率が支出を増加させます。
-
回答者の 40.4% がエンジニアリングの複雑化を報告: チームは、価値の創造よりも断片的なスタックの管理に多くの時間を費やしています。
-
回答者の 40.0% がレイテンシの増加を報告: システムの一部(ストレージやネットワーキングなど)のボトルネックにより、アプリケーションの全体的なパフォーマンスが低下します。
根本的な問題は、組織が高価で高性能なアクセラレータの料金を支払っているにもかかわらず、それらを十分に活用できていないことです。IDC のデータによると、浪費されている AI 予算全体の 29% は推論に関連しています。この浪費の直接的な原因は、GPU アイドル時間(回答者の 29.4% が報告)とリソースの非効率的な使用(22.3% が報告)です。
多くの場合、高価なアクセラレータがアイドル状態になるのは、低速なストレージ システムからのデータを待機しているか、アプリケーション サーバーが次のリクエストの準備をしているときです。これは、コンポーネントの障害ではなく、システムレベルの障害です。
この障害は、AI エンジンの原動力となるデータ マネジメントに存在する大きな課題によってさらに悪化することがよくあります。アンケート回答者がこのギャップの原因として挙げた主な課題が 3 つあります。47.7% は、データ品質とガバナンスの確保に苦労しています。45.6% は、データ ストレージ管理と関連コストの課題に取り組んでいます。44.1% は、データ クリーニングとデータ準備の複雑さとそれらにかかる時間を挙げています。データ パイプラインが高速なアクセラレータに追いつかないと、インフラストラクチャ全体の効率が低下します。
ギャップを埋める方法: 断片化したスタックから統合されたシステムへ
AI エージェントの時代に費用対効果の高いスケーリングを実現するには、個々のコンポーネントについて考えるのをやめ、システムレベルの設計に焦点を当てる必要があります。
たとえば、エージェント ワークフローには、タイプが異なる次の 2 つのコンピューティング間の緊密な連携が必要です。
-
汎用コンピューティング: 運用上のバックボーンです。アプリケーション サーバーを実行し、ワークフローのオーケストレーションとデータの事前処理を行い、モデルに関するすべてのロジックを処理します。
-
専用アクセラレータ: AI モデル自体を実行する高性能なエンジンです。
断片化した環境では、これら 2 つの要素が非効率的に結び付き、レイテンシが急増します。今後取るべき道は、ソフトウェア、ネットワーキング、ストレージ、コンピューティング(汎用と専用の両方)が単一の包括的なシステムとして機能する最適化されたアーキテクチャです。
この総合的なアプローチは、AI の TCO を管理する唯一のサステナブルな方法です。このアプローチでは、目標を再定義して、単に高速なアクセラレータを購入することから、エンドツーエンドのワークフロー全体の「費用対効果」と「ユニット エコノミクス」を改善することに切り替えます。組織は、ボトルネックを解消し、すべてのリソースの利用率を最大化して初めて、効率のギャップを埋めることができます。この成果を達成するために、組織は積極的に戦略を移行しています。IDC のアンケート調査によると、回答者の 28.9% はモデル最適化手法に優先的に取り組んでおり、26.3% は AI サービス プロバイダとの提携によってこの複雑な移行を乗り切ろうとしています。さらに、25% はチームのスキルアップのためのトレーニングに投資し、AI 投資の価値を高めようとしています。
推論の時代がすでに到来し、その後にエージェントの時代が迫っています。イノベーションの次の波に乗るのは、最も強力なアクセラレータを持つ組織ではなく、効率と統合レベルと費用対効果が最も高いシステムを構築してアクセラレータを強化できる組織でしょう。
Google Cloud からのメッセージ
Google Cloud は、IT リーダーが「推論の時代」への重要な移行を乗り切るお手伝いをするために、この IDC の調査をスポンサーとして後援しました。Google Cloud は、この投稿で取り上げられている「効率のギャップ」(断片化したスタックとアイドル状態のリソースによって生じるギャップ)がサステナブルな費用対効果の主な障壁であることを認識しています。それゆえに、Google は AI Hypercomputer を作成しました。これは、要求の厳しい AI ワークロードで優れたパフォーマンスと効率性を実現できるように設計された統合スーパーコンピュータ システムです。
IDC は、全世界の IT リーダー 1,300 人を対象にアンケート調査を実施し、効率と費用対効果を最大化するために AI スタックをどのように設計しているかを明らかにしました。詳しくは、ホワイトペーパー「The AI Efficiency Gap: From TCO Crisis to Optimized Cost and Performance」(AI 効率のギャップ: TCO 危機を乗り越えてコストとパフォーマンスを最適化)を無料でダウンロードしてご覧ください。
-IDC、クラウドおよびエッジ インフラストラクチャ サービス、調査担当バイス プレジデント、Dave McCarthy 氏
