Execute a inferência de MDIs em GPUs do Cloud Run com o vLLM
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O seguinte codelab mostra como executar um serviço de back-end que executa o vLLM, que é um
motor de inferência para sistemas de produção, juntamente com o Gemma 2 da Google, que é
um modelo otimizado para instruções com 2 mil milhões de parâmetros.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-21 UTC."],[],[],null,[]]