Executar inferência LLM em GPUs do Cloud Run com vLLM (serviços)
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O codelab a seguir mostra como executar um serviço de back-end que executa a vLLM, que é um
mecanismo de inferência para sistemas de produção, junto com o Gemma 2 do Google, que é
um modelo ajustado por instruções com 2 bilhões de parâmetros.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Hard to understand","hardToUnderstand","thumb-down"],["Incorrect information or sample code","incorrectInformationOrSampleCode","thumb-down"],["Missing the information/samples I need","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2024-11-19 UTC."],[],[]]