English
Deutsch
Español – América Latina
Français
Indonesia
Italiano
Português – Brasil
中文 – 简体
中文 – 繁體
日本語
한국어

コンソール

お問い合わせ無料で利用開始

vLLM と Cloud Run を使用して GPU 上で LLM 推論を実行する

次の Codelab では、本番環境用の推論エンジンである vLLM を実行するバックエンドサービスを、20 億個のパラメータでチューニングされた Google Gemma 2 モデルとともに実行する方法について説明します。

Codelab 全体については、GPU で vLLM と Cloud Run を使用して LLM 推論を実行するをご覧ください。

特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。

最終更新日 2025-07-14 UTC。