LLM-Inferenzen auf Cloud Run-GPUs mit vLLM (Dienste) ausführen

Im folgenden Codelab wird gezeigt, wie Sie einen Backend-Dienst ausführen, in dem vLLM, eine Inferenz-Engine für Produktionssysteme, zusammen mit Gemma 2 von Google ausgeführt wird, einem 2-Milliarden-Parameter-Modell mit Instruction Tuning.

Das vollständige Codelab finden Sie unter LLM-Inferenzen auf Cloud Run-GPUs mit vLLM ausführen.