Executar a inferência de LLM em GPUs do Cloud Run com o Transformers.js do Hugging Face (serviços)

O codelab a seguir mostra como executar um serviço de back-end que executa o pacote Transformers.js. O pacote Transformers.js é funcionalmente equivalente à biblioteca de transformadores Python do Hugging Face com o modelo Gemma 2 do Google.

Confira o codelab completo em Como executar o Transformers.js em GPUs do Cloud Run.