Executar inferência LLM em GPUs do Cloud Run com o TGI do Hugging Face (serviços)

O exemplo a seguir mostra como executar um serviço de back-end que executa o kit de ferramentas de inferência de geração de texto (TGI) do Hugging Face, que é um kit de ferramentas para implantar e disponibilizar modelos de linguagem grandes (LLMs), usando o Llama 3.

Confira o exemplo completo em Implantar o Llama 3.1 8B com o DLC TGI no Cloud Run.