Ejecuta la inferencia de LLM en GPUs de Cloud Run con vLLM

En el siguiente codelab, se muestra cómo ejecutar un servicio de backend que se ejecuta vLLM, que es un motor de inferencia para sistemas de producción, junto con Gemma 2 de Google, que es un modelo de 2,000 millones de parámetros ajustado por instrucciones.

Consulta el codelab completo en Ejecuta la inferencia de LLM en GPUs de Cloud Run con vLLM.

Salvo que se indique lo contrario, el contenido de esta página está sujeto a la licencia Atribución 4.0 de Creative Commons, y los ejemplos de código están sujetos a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio de Google Developers. Java es una marca registrada de Oracle o sus afiliados.

Última actualización: 2025-10-19 (UTC)