Ejecuta la inferencia de LLM en GPUs de Cloud Run con vLLM

En el siguiente codelab, se muestra cómo ejecutar un servicio de backend que se ejecuta vLLM, que es un motor de inferencia para sistemas de producción, junto con Gemma 2 de Google, que es un modelo de 2,000 millones de parámetros ajustado por instrucciones.

Consulta el codelab completo en Ejecuta la inferencia de LLM en GPUs de Cloud Run con vLLM.