Esegui l'inferenza LLM sulle GPU Cloud Run con vLLM (servizi)

Il seguente codelab mostra come eseguire un servizio di backend che esegue vLLM, di inferenza per i sistemi di produzione, insieme a Gemma 2 di Google, un modello ottimizzato per l'istruzione con 2 miliardi di parametri.

Consulta l'intero codelab in Eseguire l'inferenza LLM su GPU Cloud Run con vLLM.

Salvo quando diversamente specificato, i contenuti di questa pagina sono concessi in base alla licenza Creative Commons Attribution 4.0, mentre gli esempi di codice sono concessi in base alla licenza Apache 2.0. Per ulteriori dettagli, consulta le norme del sito di Google Developers. Java è un marchio registrato di Oracle e/o delle sue consociate.

Ultimo aggiornamento 2024-09-28 UTC.