Cloud Run 上的 AI 应用场景

无论您是构建代理、运行推理模型,还是与各种 AI 服务集成,Cloud Run 都能提供将 AI 创新变为现实所需的可伸缩性、灵活性和易用性。

本页重点介绍了在 Cloud Run 上托管、构建和部署 AI 工作负载的一些高级用例。

为何使用 Cloud Run 处理 AI 工作负载?

Cloud Run 在确保 AI 应用可扩缩、灵活且易于管理方面具有多项优势。一些亮点功能包括:

  • 灵活的容器支持:将应用及其依赖项打包到容器中,或使用任何受支持的语言、库或框架。详细了解 Cloud Run 的容器运行时合同
  • HTTP 端点:部署 Cloud Run 服务后,您会立即获得一个安全的 Cloud Run 网址端点。 Cloud Run 通过支持 HTTP 分块传输编码、HTTP/2 和 WebSockets 来提供流式传输。
  • 自动或手动扩缩:默认情况下,Cloud Run 会根据需求自动扩缩您的服务,甚至可以缩减到零。这样可确保您仅按实际使用量付费,非常适合不可预测的 AI 工作负载。您还可以根据流量和 CPU 利用率需求,将服务设置为手动扩缩。
  • GPU 支持:通过为 Cloud Run 资源配置 GPU 来加速 AI 模型。启用 GPU 的 Cloud Run 服务在不使用时可缩减至零,以节省费用。

  • 集成式生态系统与其他 Google Cloud 服务(例如 Vertex AI、BigQuery、Cloud SQL、Memorystore、Pub/Sub、AlloyDB for PostgreSQL、Cloud CDN、Secret Manager 和自定义网域)无缝连接,以构建全面的端到端 AI 流水线。Google Cloud Observability 还提供内置的监控和日志记录工具,可帮助您了解应用性能并有效排查问题。

  • 适合企业:Cloud Run 提供直接 VPC 连接、精细的安全性和网络控制。

关键 AI 应用场景

以下是一些可用于为 AI 应用提供支持的 Cloud Run 用例:

托管 AI 智能体和聊天机器人

Cloud Run 是托管 AI 代理、聊天机器人和虚拟助理后端逻辑的理想平台。这些智能体可以协调对 Vertex AI 上的 Gemini 等 AI 模型的调用、管理状态,并与各种工具和 API 集成。

  • 代理的微服务:将各个代理功能部署为单独的 Cloud Run 服务。如需了解详情,请参阅托管 AI 代理
  • Agent2Agent (A2A) 通信:使用 A2A 协议构建协作式智能体系统。如需了解详情,请参阅托管 A2A 代理
  • Model Context Protocol (MCP) 服务器:实现 MCP 服务器,以便从工具和数据源向 LLM 提供标准化上下文。如需了解详情,请参阅托管 MCP 服务器

部署 AI/机器学习模型以进行推理

将训练好的机器学习模型部署为可扩缩的 HTTP 端点。

  • 实时推理:使用 TensorFlow、PyTorch、scikit-learn 等框架构建的模型或使用 Gemma 等开放模型提供预测结果。 如需查看示例,请参阅在 Cloud Run 上运行 Gemma 3
  • GPU 加速:使用 NVIDIA GPU 加速推理,以处理要求更高的模型。如需了解详情,请参阅为服务配置 GPU
  • 与 Vertex AI 集成:使用 Cloud Run 作为可扩缩的前端,提供在 Vertex AI 上训练或部署的模型。
  • 将大型模型文件与容器分离:借助 Cloud Storage FUSE 适配器,您可以装载 Cloud Storage 存储分区,并使其可作为 Cloud Run 容器内的本地目录进行访问。

构建检索增强生成 (RAG) 系统

通过将 Cloud Run 服务连接到数据源来构建 RAG 应用。

  • 向量数据库:连接到托管在 Cloud SQL(使用 pgvector)、AlloyDB for PostgreSQL、Memorystore for Redis 或其他专用向量存储区中的向量数据库,以检索 LLM 的相关上下文。查看基础设施示例,了解如何使用 Cloud Run 托管支持 RAG 的生成式 AI 应用,以及如何使用 Vertex AI 和 Vector Search 进行数据处理。
  • 数据访问:从 Cloud Storage、BigQuery、Firestore 或其他 API 中提取数据,以丰富提示。

托管由 AI 驱动的 API 和后端

创建嵌入 AI 功能的 API 和微服务。

  • 智能 API:开发使用 LLM 进行自然语言理解、情感分析、翻译、总结等的 API。
  • 自动化工作流:构建可根据事件或请求触发 AI 驱动的操作的服务。

制作原型并对创意进行实验

快速迭代 AI 创意。

  • 快速部署:只需进行最少的配置,即可将原型从 Vertex AI StudioGoogle AI Studio 或 Jupyter 笔记本等环境快速迁移到 Cloud Run 上可扩缩的部署。
  • 流量拆分:使用 Cloud Run 的流量拆分功能对不同的模型、提示或配置进行 A/B 测试,并使用 Google Cloud Observability 监控指标(延迟时间、错误率、费用)来衡量 A/B 测试的成功程度。

后续步骤

您可以根据自己对 AI 概念的熟悉程度和 AI 应用场景,探索 Cloud Run AI 资源