Execute a inferência de MDIs em GPUs do Cloud Run com o vLLM

O seguinte codelab mostra como executar um serviço de back-end que executa o vLLM, que é um motor de inferência para sistemas de produção, juntamente com o Gemma 2 da Google, que é um modelo otimizado para instruções com 2 mil milhões de parâmetros.

Veja o codelab completo em Execute a inferência de MDIs em GPUs do Cloud Run com o vLLM.