Baseten が AI 推論の費用対効果を 225% 改善した方法
Philip Kiely
Head of Developer Relations, Baseten
Chelsie Czop
Sr. Product Manager, AI Infrastructure, Google Cloud
※この投稿は米国時間 2025 年 9 月 5 日に、Google Cloud blog に投稿されたものの抄訳です。
Baseten は、急増している AI インフラストラクチャ プロバイダの一つであり、モデルやテストを「迅速」かつ「大規模」に実行できるようスタートアップを支援しています。顧客企業が重視するこの 2 点において、同社はこのたび大きなマイルストーンを達成しました。
Baseten は、NVIDIA Blackwell 搭載の最新の Google Cloud A4 仮想マシン(VM)と Google Cloud の Dynamic Workload Scheduler(DWS)を活用することで、スループット重視の推論では 225%、レイテンシ重視の推論では 25% も費用対効果を向上させました。
重要な理由: パフォーマンスと効率におけるこの画期的な進歩により、企業は強力なエージェント AI と推論モデルを、ラボから本番環境にコストを抑えて移行できます。技術リーダーにとって、これは次世代 AI プロダクトを構築するためのブループリントであり、リアルタイム音声 AI、検索 AI、エージェント ワークフローなどを、これまで達成できなかった規模と費用対効果で実現できるようになります。
背景: 推論はエンタープライズ AI の要です。マルチステップの推論と意思決定を行うモデルでは、コンピューティング需要が指数関数的に増大するため、効率的なサービスという課題が主なボトルネックになっていました。そこへ登場したのが、6 年前に設立されたシリーズ C の企業、Baseten です。同社は Google Cloud および NVIDIA と提携し、パフォーマンスと費用対効果に重点をおいて、独自モデルやオープンモデル(Gemma、DeepSeek、Llama など)向けのスケーラブルな推論プラットフォームを企業に提供しています。その成功の原動力は、最先端のハードウェアの可能性を最大限に引き出し、高度に最適化されたオープン ソフトウェア スタックでそれをオーケストレーションするという二重の戦略です。
Baseten がどのようにスタックを構築したのか、そしてこの新しいレベルの費用対効果が推論アプリケーションにどのような可能性をもたらすのかについて、詳しくご紹介します。
最新の NVIDIA GPU によるハードウェアの最適化
Baseten は、NVIDIA T4 から最新の A4 VM(NVIDIA HGX B200)まで、Google Cloud 上の幅広い NVIDIA GPU を活用して本番環境グレードの推論を提供しています。最新のハードウェアにアクセスできることは、新たなレベルのパフォーマンスを実現するうえで非常に重要です。
-
A4 VM を使用することで、Baseten は、最も人気のあるオープンソース モデルである DeepSeek V3、DeepSeek R1、Llama 4 Maverick の 3 つをモデル API で直接提供できるようになりました。費用対効果は、スループット重視の推論では 225% 以上、レイテンシ重視の推論では 25% 向上しました。
-
Baseten は、プロダクション レディなモデル API に加えて、同じ信頼性と効率性で独自のカスタム AI モデルを実行したい企業向けに、NVIDIA B200 を搭載した専用のデプロイメントによりさらなる柔軟性を提供しています。
パフォーマンスを最大限に高める高度なソフトウェア
Baseten のアプローチの基盤は、アクセラレータを活用した最新のハードウェアと最先端のオープンソース ソフトウェアとの組み合わせにより、一つひとつのチップから最大限の価値を引き出すことにあります。この統合は、NVIDIA のオープンソース ソフトウェア スタックである NVIDIA Dynamo と TensorRT-LLM、SGLang、vLLM など、幅広い高度な推論フレームワークを含む Google Cloud の AI Hypercomputer によって実現しました。
-
Baseten は TensorRT-LLM を使用して、AI 事業の大手顧客である Writer のカスタム LLM を最適化およびコンパイルしています。これにより、Writer の Palmyra LLM のスループットは 60% 超も向上しました。TensorRT-LLM の柔軟性を活かして、Baseten はコンパイルを高速化するカスタムモデル ビルダーも開発しました。
-
NVIDIA Blackwell GPU で DeepSeek R1 や Llama 4 などの推論モデルを提供するために、Baseten は NVIDIA Dynamo を使用しています。NVIDIA の HGX B200 と Dynamo の組み合わせによって大幅なレイテンシの短縮とスループットの向上を実現したことで、同社は OpenRouter の LLM ランキング リーダーボードで GPU パフォーマンス部門のトップに躍り出ました。
-
チームは、カーネル融合、メモリ階層の最適化、カスタム アテンション カーネルなどの手法を活用して、1 秒あたりのトークン処理数の増加、最初のトークンまでの時間の短縮、より長いコンテキスト ウィンドウとより大きなバッチサイズのサポートを、低レイテンシと高スループットを維持しながら実現しています。
高可用性と冗長性のためのバックボーンの構築
ミッション クリティカルな AI サービスでは、復元力が欠かせません。Baseten は複数のクラウドとリージョンにわたってグローバルに運用されているため、突発的な需要やサービス停止に対応できるインフラストラクチャを必要としていました。AI Hypercomputer 内の Dynamic Workload Scheduler などの柔軟な利用モデルでは、オンデマンドと同様のキャパシティ管理が実現するとともに、料金的なメリットも得られます。これにより、他のクラウドで障害が発生した場合に、Google Cloud でスケールアップすることが可能になります。
Baseten のインフラストラクチャ責任者である Colin McGrath 氏は次のように述べています。「Baseten はマルチクラウドでグローバルに運用されており、障害が発生したときに Dynamic Workload Scheduler に何度も助けられました。影響を受けたワークロードが自動システムによって Google Cloud Dynamic Workload Scheduler などの他のリソースに移動され、数分で全員が作業を再開できます。通知が来て確認するころにはすべてが復旧して正常に戻っているのですから、驚きです。このような成果は、DWS なしでは実現できませんでした。当社のビジネスを支える基盤となっています。」


Baseten のスケーラブルな推論プラットフォームのアーキテクチャ
エンドユーザー向けの新しい AI アプリケーションの実現
Baseten と Google Cloud および NVIDIA とのコラボレーションが示すこと、それは、最先端のハードウェアとスケーラブルで柔軟なクラウド インフラストラクチャという強力な組み合わせにより、Google Cloud の AI Hypercomputer を通じて AI 推論における最も差し迫った課題を解決できるということです。
この独自の組み合わせにより、さまざまな業界で新しいアプリケーションの市場投入が可能になります。金融サービスにおけるエージェント ワークフローの強化、メディアにおけるリアルタイムの音声および動画コンテンツの生成、ヘルスケアにおけるドキュメント処理の高速化などを、これまでは不可能だった規模と費用で実現できるのです。
Baseten のプラットフォームは、Google Cloud Marketplace から簡単に利用を開始していただけます。また、技術アーキテクチャの詳細については、Baseten のブログ投稿をご覧ください。
ー Baseten、デベロッパー リレーションズ責任者 Philip Kiely 氏
ー Google Cloud、AI Infrastructure 担当シニア プロダクト マネージャー Chelsie Czop