Containers & Kubernetes

Gemini CLI を使用して費用対効果の高い LLM ワークロードを GKE にデプロイする

2025年11月11日

Shuwen Fang

Software Engineer

Anna Pendleton

Software Engineer

Try Gemini 3

Our most intelligent model is now available on Vertex AI and Gemini Enterprise

Try now

※この投稿は米国時間 2025 年 10 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。

LLM ワークロードをデプロイするのは複雑で費用もかかり、多くの場合、時間のかかる複数ステップのプロセスを伴います。この問題を解決するために、Google Kubernetes Engine（GKE）ではInference Quickstartが提供されています。

Inference Quickstart を使用すると、手作業による数か月もの試行錯誤を、すぐに使えるマニフェストとデーに基づく分析情報に置き換えることができます。Inference Quickstart は、ネイティブの Model Context Protocol（MCP）サポートを通じて Gemini CLI と統合され、LLM ワークロードのコストとパフォーマンス要件に合わせた最適な推奨を提供します。これらのツールを組み合わせることで、LLM を分析、選択、デプロイする作業を数分で完了できます。その方法をご紹介します。

1. Gemini CLI を使用して GKE で LLM を選択して提供する

gemini cli と gke-mcp サーバーをインストールする手順は以下のとおりです。

読み込んでいます...

Gemini CLI に指定して LLM ワークロードを選択し、モデルを GKE クラスタにデプロイするために必要なマニフェストを生成するプロンプトの例を以下に示します。

読み込んでいます...

以下の動画では、この Gemini CLI の設定を使用して、最適な LLM ワークロードを迅速に特定し、既存の GKE クラスタにデプロイするエンドツーエンドの例を示しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_FO4rbPT.max-1300x1300.jpg

2. パフォーマンスを維持しながらコストを節約

推論ワークロードに適したハードウェアを選択するには、パフォーマンスとコストのバランスを取る必要があります。ただし、そのトレードオフは単純ではありません。この複雑なトレードオフを簡単にするために、Inference Quickstart は Googleのベンチマークに基づいた、さまざまなアクセラレータにおけるパフォーマンスとコストの分析情報を提供します。

たとえば、下のグラフに示すように、vLLM 上の Gemma 3 4b のようなモデルのレイテンシを最小限に抑えると、コストが大幅に増加します。超低レイテンシを実現するには、リクエストのバッチ処理の効率を犠牲にする必要があるため、アクセラレータの利用率が下がってしまうためです。リクエストの負荷、モデルサイズ、アーキテクチャ、ワークロードの特性はすべて、特定のユースケースに最適なアクセラレータに影響する可能性があります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_NKTHzu1.max-1000x1000.png

十分な情報に基づいて意思決定を行うために、Gemini CLI に質問するか、Inference Quickstart の Colab ノートブックを使用して、データドリブンな推奨事項を即座に取得できます。

3. 入力 / 出力トークンあたりの費用を計算する

GKE などのプラットフォームで独自のモデルをホストする場合、課金されるのはアクセラレータの時間であり、個々のトークンではありません。Inference Quickstart では、アクセラレータの時間あたりのコストと入力 / 出力スループットを使用して、トークンあたりのコストを計算します。

次の式では、アクセラレータの総コストを入力トークンと出力トークンの両方に帰属させています。

読み込んでいます...

この式では、出力トークンのコストは入力トークンの 4 倍であると想定しています。このヒューリスティックの理由は、プレフィルフェーズ（入力トークンの処理）は高度に並列化されたオペレーションであるのに対し、デコードフェーズ（出力トークンの生成）はシーケンシャルな自己回帰プロセスであるためです。Gemini CLI に、ワークロードの予想される入出力比率に合わせてこの比率を変更するように依頼できます。

費用対効果の高い LLM 推論を実現する鍵は、データドリブンなアプローチを採用することです。ワークロードのベンチマークに依存し、トークンあたりのコストなどの指標を使用することで、予算とパフォーマンスに直接影響する情報に基づいた意思決定を行うことができます。

次のステップ

GKE Inference Quickstart は、コストに関する分析情報と Gemini CLI の統合だけでなく、ストレージ、自動スケーリング、オブザーバビリティの最適化も含まれています。GKE Inference クイックスタートを使用して、LLM ワークロードを今すぐ実行し、GKE で LLM を迅速化および最適化する方法をご確認ください。

-Shuwen Fang、ソフトウェアエンジニア

-Anna Pendleton、ソフトウェアエンジニア

投稿先