使用 Hugging Face TGI 在 Cloud Run GPU 上运行 LLM 推理

以下示例展示了如何运行后端服务，该服务运行 Hugging Face 文本生成推理 (TGI) 工具包，该工具包是使用 Llama 3 部署和提供大型语言模型 (LLM) 的工具包。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-11-04。