vLLM と Cloud Run を使用して GPU 上で LLM 推論を実行する

次の Codelab では、本番環境用の推論エンジンである vLLM を実行するバックエンド サービスを、20 億個のパラメータでチューニングされた Google Gemma 2 モデルとともに実行する方法について説明します。

Codelab 全体については、GPU で vLLM と Cloud Run を使用して LLM 推論を実行するをご覧ください。