Esegui l'inferenza batch utilizzando le GPU nei job Cloud Run

Puoi eseguire l'inferenza batch con Llama 3.2-1b LLM di Meta e vLLM in un job Cloud Run, quindi scrivere i risultati direttamente in Cloud Storage utilizzando i volumi montati di Cloud Run.

Consulta un codelab didattico passo passo su Come eseguire l'inferenza batch sui job Cloud Run.