Esegui l'inferenza LLM sulle GPU Cloud Run con vLLM (servizi)

Il seguente codelab mostra come eseguire un servizio di backend che esegue vLLM, di inferenza per i sistemi di produzione, insieme a Gemma 2 di Google, un modello ottimizzato per l'istruzione con 2 miliardi di parametri.

Consulta l'intero codelab in Eseguire l'inferenza LLM su GPU Cloud Run con vLLM.