Ejecutar inferencias por lotes con GPUs en trabajos de Cloud Run

Puedes ejecutar inferencias por lotes con Llama 3.2-1b LLM de Meta y vLLM en un trabajo de Cloud Run y, a continuación, escribir los resultados directamente en Cloud Storage mediante los montajes de volúmenes de Cloud Run.

Consulta un codelab con instrucciones detalladas en Cómo ejecutar inferencias por lotes en trabajos de Cloud Run.

A menos que se indique lo contrario, el contenido de esta página está sujeto a la licencia Reconocimiento 4.0 de Creative Commons y las muestras de código están sujetas a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio web de Google Developers. Java es una marca registrada de Oracle o sus afiliados.

Última actualización: 2025-10-19 (UTC).