Executar inferência LLM em GPUs do Cloud Run com vLLM

O codelab a seguir mostra como executar um serviço de back-end que executa a vLLM, que é um mecanismo de inferência para sistemas de produção, junto com o Gemma 2 do Google, que é um modelo ajustado por instruções com 2 bilhões de parâmetros.

Confira o codelab completo em Executar inferência de LLM em GPUs do Cloud Run com vLLM.

Exceto em caso de indicação contrária, o conteúdo desta página é licenciado de acordo com a Licença de atribuição 4.0 do Creative Commons, e as amostras de código são licenciadas de acordo com a Licença Apache 2.0. Para mais detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou afiliadas.

Última atualização 2025-10-19 UTC.