Ottimizzare gli LLM utilizzando le GPU con i job Cloud Run

Puoi ottimizzare un modello Gemma 3 in un job Cloud Run, quindi utilizzare il modello ottimizzato in un servizio Cloud Run utilizzando vLLM.

Consulta un codelab didattico passo passo all'indirizzo Come ottimizzare un modello utilizzando i job Cloud Run.

Salvo quando diversamente specificato, i contenuti di questa pagina sono concessi in base alla licenza Creative Commons Attribution 4.0, mentre gli esempi di codice sono concessi in base alla licenza Apache 2.0. Per ulteriori dettagli, consulta le norme del sito di Google Developers. Java è un marchio registrato di Oracle e/o delle sue consociate.

Ultimo aggiornamento 2025-10-19 UTC.