Ejecuta la inferencia de LLM en GPUs de Cloud Run con vLLM
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
En el siguiente codelab, se muestra cómo ejecutar un servicio de backend que se ejecuta vLLM, que es un motor de inferencia para sistemas de producción, junto con Gemma 2 de Google, que es un modelo de 2,000 millones de parámetros ajustado por instrucciones.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-02-14 (UTC)"],[],[]]