English
Deutsch
Español – América Latina
Français
Português – Brasil
中文 – 简体
日本語
한국어

控制台

联系我们免费开始使用吧

Cloud Run 上的 AI 应用场景

无论您是构建代理、运行推理模型，还是与各种 AI 服务集成，Cloud Run 都能提供将 AI 创新变为现实所需的可伸缩性、灵活性和易用性。

本页重点介绍了在 Cloud Run 上托管、构建和部署 AI 工作负载的一些高级用例。

为何使用 Cloud Run 处理 AI 工作负载？

Cloud Run 在确保 AI 应用可扩缩、灵活且易于管理方面具有多项优势。一些亮点功能包括：

灵活的容器支持：将应用及其依赖项打包到容器中，或使用任何受支持的语言、库或框架。详细了解 Cloud Run 的容器运行时合同。
HTTP 端点：部署 Cloud Run 服务后，您会立即获得一个安全的 Cloud Run 网址端点。 Cloud Run 通过支持 HTTP 分块传输编码、HTTP/2 和 WebSockets 来提供流式传输。
自动或手动扩缩：默认情况下，Cloud Run 会根据需求自动扩缩您的服务，甚至可以缩减到零。这样可确保您仅按实际使用量付费，非常适合不可预测的 AI 工作负载。您还可以根据流量和 CPU 利用率需求，将服务设置为手动扩缩。

GPU 支持：通过为 Cloud Run 资源配置 GPU 来加速 AI 模型。启用 GPU 的 Cloud Run 服务在不使用时可缩减至零，以节省费用。
集成式生态系统：与其他 Google Cloud 服务（例如 Vertex AI、BigQuery、Cloud SQL、Memorystore、Pub/Sub、AlloyDB for PostgreSQL、Cloud CDN、Secret Manager 和自定义网域）无缝连接，以构建全面的端到端 AI 流水线。Google Cloud Observability 还提供内置的监控和日志记录工具，可帮助您了解应用性能并有效排查问题。

适合企业：Cloud Run 提供直接 VPC 连接、精细的安全性和网络控制。

关键 AI 应用场景

以下是一些可用于为 AI 应用提供支持的 Cloud Run 用例：

托管 AI 智能体和聊天机器人

Cloud Run 是托管 AI 代理、聊天机器人和虚拟助理后端逻辑的理想平台。这些智能体可以协调对 Vertex AI 上的 Gemini 等 AI 模型的调用、管理状态，并与各种工具和 API 集成。

代理的微服务：将各个代理功能部署为单独的 Cloud Run 服务。如需了解详情，请参阅托管 AI 代理。

Agent2Agent (A2A) 通信：使用 A2A 协议构建协作式智能体系统。如需了解详情，请参阅托管 A2A 代理。

Model Context Protocol (MCP) 服务器：实现 MCP 服务器，以便从工具和数据源向 LLM 提供标准化上下文。如需了解详情，请参阅托管 MCP 服务器。

部署 AI/机器学习模型以进行推理

将训练好的机器学习模型部署为可扩缩的 HTTP 端点。

实时推理：使用 TensorFlow、PyTorch、scikit-learn 等框架构建的模型或使用 Gemma 等开放模型提供预测结果。如需查看示例，请参阅在 Cloud Run 上运行 Gemma 3。

GPU 加速：使用 NVIDIA GPU 加速推理，以处理要求更高的模型。如需了解详情，请参阅为服务配置 GPU。
与 Vertex AI 集成：使用 Cloud Run 作为可扩缩的前端，提供在 Vertex AI 上训练或部署的模型。

将大型模型文件与容器分离：借助 Cloud Storage FUSE 适配器，您可以装载 Cloud Storage 存储分区，并使其可作为 Cloud Run 容器内的本地目录进行访问。

构建检索增强生成 (RAG) 系统

通过将 Cloud Run 服务连接到数据源来构建 RAG 应用。

向量数据库：连接到托管在 Cloud SQL（使用 pgvector）、AlloyDB for PostgreSQL、Memorystore for Redis 或其他专用向量存储区中的向量数据库，以检索 LLM 的相关上下文。查看基础设施示例，了解如何使用 Cloud Run 托管支持 RAG 的生成式 AI 应用，以及如何使用 Vertex AI 和 Vector Search 进行数据处理。
数据访问：从 Cloud Storage、BigQuery、Firestore 或其他 API 中提取数据，以丰富提示。

托管由 AI 驱动的 API 和后端

创建嵌入 AI 功能的 API 和微服务。

智能 API：开发使用 LLM 进行自然语言理解、情感分析、翻译、总结等的 API。
自动化工作流：构建可根据事件或请求触发 AI 驱动的操作的服务。

制作原型并对创意进行实验

快速迭代 AI 创意。

快速部署：只需进行最少的配置，即可将原型从 Vertex AI Studio、Google AI Studio 或 Jupyter 笔记本等环境快速迁移到 Cloud Run 上可扩缩的部署。

流量拆分：使用 Cloud Run 的流量拆分功能对不同的模型、提示或配置进行 A/B 测试，并使用 Google Cloud Observability 监控指标（延迟时间、错误率、费用）来衡量 A/B 测试的成功程度。

后续步骤

您可以根据自己对 AI 概念的熟悉程度和 AI 应用场景，探索 Cloud Run AI 资源。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-11-06。