Executar inferência em lote usando GPUs em jobs do Cloud Run

É possível executar a inferência em lote com o LLM Llama 3.2-1b da Meta e o vLLM em um job do Cloud Run e gravar os resultados diretamente no Cloud Storage usando as montagens de volume do Cloud Run.

Confira um codelab instrucional detalhado em Como executar a inferência em lote em jobs do Cloud Run.