Ejecuta la inferencia de LLM en GPUs de Cloud Run con Hugging Face TGI (servicios)

En el siguiente ejemplo, se muestra cómo ejecutar un servicio de backend que ejecuta el kit de herramientas de inferencia de generación de texto (TGI) de Hugging Face, que es un kit de herramientas para implementar y entregar modelos de lenguaje grande (LLM), con Llama 3.

Consulta el ejemplo completo en Implementa Llama 3.1 8B con el DLC de TGI en Cloud Run.