Execute a inferência de MDIs em GPUs do Cloud Run com o TGI do Hugging Face

O exemplo seguinte mostra como executar um serviço de back-end que executa o conjunto de ferramentas Hugging Face Text Generation Inference (TGI), que é um conjunto de ferramentas para implementar e publicar modelos de linguagem (conteúdo extenso) (MDIs/CEs), usando o Llama 3.

Veja o exemplo completo em Implemente o Llama 3.1 8B com o DLC do TGI no Cloud Run.

Exceto em caso de indicação contrária, o conteúdo desta página é licenciado de acordo com a Licença de atribuição 4.0 do Creative Commons, e as amostras de código são licenciadas de acordo com a Licença Apache 2.0. Para mais detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou afiliadas.

Última atualização 2025-10-19 UTC.