Executar inferência LLM em GPUs do Cloud Run com vLLM (serviços)

O codelab a seguir mostra como executar um serviço de back-end que executa a vLLM, que é um mecanismo de inferência para sistemas de produção, junto com o Gemma 2 do Google, que é um modelo ajustado por instruções com 2 bilhões de parâmetros.

Confira o codelab completo em Executar inferência de LLM em GPUs do Cloud Run com vLLM.