LLM-Inferenz auf Cloud Run-GPUs mit vLLM (Dienste) ausführen

Im folgenden Codelab wird gezeigt, wie Sie einen Back-End-Dienst ausführen, in dem vLLM, eine Inferenz-Engine für Produktionssysteme, zusammen mit Gemma 2 von Google ausgeführt wird, einem 2 Milliarden-Parameter-Modell mit Instruction Tuning.

Das vollständige Codelab finden Sie unter LLM-Inferenz auf Cloud Run-GPUs mit vLLM ausführen.