Esegui l'inferenza LLM sulle GPU Cloud Run con vLLM (servizi)

Il seguente codelab mostra come eseguire un servizio di backend che esegue vLLM, un motore di inferenza per i sistemi di produzione, insieme a Gemma 2 di Google, un modello con 2 miliardi di parametri ottimizzato per le istruzioni.

Consulta l'intero codelab all'indirizzo Esegui l'inferenza LLM sulle GPU Cloud Run con vLLM.