Exécuter l'inférence LLM sur les GPU Cloud Run avec Hugging Face TGI (services)

L'exemple suivant montre comment exécuter un service de backend qui exécute le kit d'outils d'inférence de génération de texte (TGI) de Hugging Face, un kit d'outils permettant de déployer et de diffuser des modèles de grand modèle de langage (LLM) à l'aide de Llama 3.

Pour accéder à l'exemple complet, consultez la section Déployer Llama 3.1 8B avec le DLC TGI sur Cloud Run.