Esegui l'inferenza LLM sulle GPU Cloud Run con vLLM

Il seguente codelab mostra come eseguire un servizio di backend che esegue vLLM, un motore di inferenza per i sistemi di produzione, insieme a Gemma 2 di Google, un modello con 2 miliardi di parametri ottimizzato per le istruzioni.

Per visualizzare l'intero codelab, consulta Esegui l'inferenza LLM sulle GPU Cloud Run con vLLM.