使用 Hugging Face TGI(服务)在 Cloud Run GPU 上运行 LLM 推理

以下示例展示了如何运行后端服务,该服务运行 Hugging Face 文本生成推理 (TGI) 工具包,该工具包是使用 Llama 3 部署和提供大型语言模型 (LLM) 的工具包。

如需查看完整示例,请参阅在 Cloud Run 上部署包含 TGI DLC 的 Llama 3.1 8B