Executar inferência LLM em GPUs do Cloud Run com vLLM (serviços)
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O codelab a seguir mostra como executar um serviço de back-end que executa a vLLM, que é um
mecanismo de inferência para sistemas de produção, junto com o Gemma 2 do Google, que é
um modelo ajustado por instruções com 2 bilhões de parâmetros.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-02-14 UTC."],[],[]]