Esegui l'inferenza LLM sulle GPU Cloud Run con i servizi TGI (modelli di generazione di testo) di Hugging Face

L'esempio seguente mostra come eseguire un servizio di backend che esegue il toolkit Hugging Face Text Generation Inference (TGI), un toolkit per il deployment e il servizio di modelli linguistici di grandi dimensioni (LLM), utilizzando Llama 3.

Per visualizzare l'intero esempio, consulta Eseguire il deployment di Llama 3.1 8B con il DLC TGI su Cloud Run.