Ottimizzare gli LLM utilizzando le GPU con i job Cloud Run

Puoi ottimizzare un modello Gemma 3 in un job Cloud Run, quindi utilizzare il modello ottimizzato in un servizio Cloud Run utilizzando vLLM.

Consulta un codelab didattico passo passo in Come ottimizzare un modello utilizzando i job Cloud Run.