Ejecuta la inferencia de LLM en GPUs de Cloud Run con Hugging Face TGI

En el siguiente ejemplo, se muestra cómo ejecutar un servicio de backend que ejecuta el kit de herramientas de inferencia de generación de texto (TGI) de Hugging Face, que es un kit de herramientas para implementar y entregar modelos de lenguaje grande (LLM), con Llama 3.

Salvo que se indique lo contrario, el contenido de esta página está sujeto a la licencia Atribución 4.0 de Creative Commons, y los ejemplos de código están sujetos a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio de Google Developers. Java es una marca registrada de Oracle o sus afiliados.

Última actualización: 2025-10-19 (UTC)