Esegui l'inferenza LLM sulle GPU Cloud Run con TGI di Hugging Face
L'esempio seguente mostra come eseguire un servizio di backend che esegue il toolkit Hugging Face Text Generation Inference (TGI), un toolkit per il deployment e il servizio di modelli linguistici di grandi dimensioni (LLM), utilizzando Llama 3.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-10-19 UTC."],[],[]]