次の Codelab では、本番環境用の推論エンジンである vLLM を実行するバックエンド サービスを、20 億個のパラメータでチューニングされた Google Gemma 2 モデルとともに実行する方法について説明します。
Codelab 全体については、GPU で vLLM と Cloud Run を使用して LLM 推論を実行するをご覧ください。
次の Codelab では、本番環境用の推論エンジンである vLLM を実行するバックエンド サービスを、20 億個のパラメータでチューニングされた Google Gemma 2 モデルとともに実行する方法について説明します。
Codelab 全体については、GPU で vLLM と Cloud Run を使用して LLM 推論を実行するをご覧ください。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-02-01 UTC。