Ejecuta la inferencia de LLM en GPUs de Cloud Run con vLLM
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
En el siguiente codelab, se muestra cómo ejecutar un servicio de backend que se ejecuta vLLM, que es un motor de inferencia para sistemas de producción, junto con Gemma 2 de Google, que es un modelo de 2,000 millones de parámetros ajustado por instrucciones.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[],[],null,["# Run LLM inference on Cloud Run GPUs with vLLM\n\nThe following codelab shows how to run a backend service that runs [vLLM](https://github.com/vllm-project/vllm), which is an\ninference engine for production systems, along with Google's [Gemma 2](https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/), which is\na 2 billion parameters instruction-tuned model.\n\nSee the entire codelab at [Run LLM inference on Cloud Run GPUs with vLLM](https://codelabs.developers.google.com/codelabs/how-to-run-inference-cloud-run-gpu-vllm#0)."]]