Esegui l'inferenza LLM sulle GPU Cloud Run con TGI di Hugging Face

L'esempio seguente mostra come eseguire un servizio di backend che esegue il toolkit Hugging Face Text Generation Inference (TGI), un toolkit per il deployment e il servizio di modelli linguistici di grandi dimensioni (LLM), utilizzando Llama 3.

Per visualizzare l'intero esempio, consulta Eseguire il deployment di Llama 3.1 8B con il DLC TGI su Cloud Run.

Salvo quando diversamente specificato, i contenuti di questa pagina sono concessi in base alla licenza Creative Commons Attribution 4.0, mentre gli esempi di codice sono concessi in base alla licenza Apache 2.0. Per ulteriori dettagli, consulta le norme del sito di Google Developers. Java è un marchio registrato di Oracle e/o delle sue consociate.

Ultimo aggiornamento 2025-10-19 UTC.