使用 Hugging Face Transformers.js(服务)在 Cloud Run GPU 上运行 LLM 推理

以下 Codelab 展示了如何运行后端服务,该服务会运行 Transformers.js 软件包。Transformers.js 软件包在功能上等同于 Hugging Face Transformer Python 库以及 Google 的 Gemma 2 模型。

如需查看完整的 Codelab,请访问如何在 Cloud Run GPU 上运行 Transformers.js