Esegui l'inferenza batch utilizzando le GPU nei job Cloud Run

Puoi eseguire l'inferenza batch con Llama 3.2-1b LLM di Meta e vLLM in un job Cloud Run, quindi scrivere i risultati direttamente in Cloud Storage utilizzando i volumi montati di Cloud Run.

Consulta un codelab didattico passo passo in Come eseguire l'inferenza batch sui job Cloud Run.

Salvo quando diversamente specificato, i contenuti di questa pagina sono concessi in base alla licenza Creative Commons Attribution 4.0, mentre gli esempi di codice sono concessi in base alla licenza Apache 2.0. Per ulteriori dettagli, consulta le norme del sito di Google Developers. Java è un marchio registrato di Oracle e/o delle sue consociate.

Ultimo aggiornamento 2025-10-19 UTC.