使用 GPU 在 Cloud Run 上运行 AI 推理。如果您不熟悉 AI 概念,请参阅 AI 专用 GPU。 GPU 用于训练和运行 AI 模型。这样一来,您就可以获得更稳定的性能,并能够根据总体利用率扩缩工作负载。如需详细了解 GPU 配置,请参阅服务、作业和工作器池的 GPU 支持。
服务教程
- 在 Cloud Run GPU 上使用 Gemma 3 和 Ollama 运行 LLM 推理
- 在 Cloud Run 上运行 Gemma 3
- 使用 vLLM 在 Cloud Run GPU 上运行 LLM 推理
- 在 Cloud Run 上使用 GPU 加速功能运行 OpenCV
- 使用 Hugging Face Transformers.js 在 Cloud Run GPU 上运行 LLM 推理
- 使用 Hugging Face TGI 在 Cloud Run GPU 上运行 LLM 推理