在 Cloud Run 上运行 AI 解决方案

本指南概述了如何使用 Cloud Run 来托管应用、运行推理和构建 AI 工作流。

Cloud Run，用于托管 AI 应用、代理和可扩缩的 API 端点

Cloud Run 提供了一个全托管式平台，可扩缩 AI 应用和工作负载。

在 Cloud Run 上托管 AI 应用时，您通常会使用以下架构组件：

提供服务和编排：将应用代码或容器部署到 Cloud Run。
AI 模型：您在应用中使用 Google 的 AI 模型、开源模型或自定义模型。
集成：您可以连接到 Google Cloud 服务或第三方服务，以实现内存、数据库、存储、安全等功能。
工具：您可以连接到其他工具以执行其他任务和操作。

下图简要展示了如何使用 Cloud Run 作为 AI 应用的托管平台：

在 Cloud Run 上托管的 AI 应用的四个组成部分：
1. 服务和编排，2. AI 模型集成工具 — **图 1：**托管在 Cloud Run 上的 AI 应用的组件。

如图所示：

在服务和编排层中，Cloud Run 服务充当应用核心逻辑的可扩缩 API 端点。它通过自动、按需、快速扩缩实例来高效管理多个并发用户。

您自带容器，以便部署到 Cloud Run。您可以将应用及其依赖项打包到容器中，也可以提供源代码，让 Cloud Run 自动将代码构建到容器中以进行部署。对于源代码部署，您可以使用任何语言、开放框架或 SDK 来构建 AI 应用。
您的 AI 应用充当可扩缩的 API 端点，用于处理传入的请求并将数据发送到预训练的 AI 模型进行处理，然后返回结果。

Cloud Run 与 Gemini 和 Vertex AI 模型等 Google 模型集成，还可以与 Llama 和 Gemma 等开源模型集成。如果您有自己训练的自定义模型，也可以将该模型与 Cloud Run 资源搭配使用。
Google Cloud 提供各种解决方案来支持 AI 应用的基础设施。以下是一些与 AI 应用搭配使用的Google Cloud 集成：
- 内存和数据库
  - 短期
    - Memorystore 是一项缓存和临时高访问数据管理服务，可为短期数据存储提供快速的外部缓存。
  - 长期
    - AlloyDB for PostgreSQL 是一款与 PostgreSQL 兼容的数据库，专为要求严苛的事务型和分析型工作负载而设计。它提供内置的向量嵌入生成功能和高速向量索引，与标准 pgvector 实现相比，可快速进行语义搜索。
    - Cloud SQL 是一项适用于 MySQL、PostgreSQL 和 SQL Server 的关系型数据库服务，还可以通过 PostgreSQL 的 pgvector 扩展程序充当向量存储区。
    - Firestore 是一种可扩缩的 NoSQL 文档数据库服务，包含内置的向量搜索功能。
- 存储
  - Cloud Storage 是一种对象存储解决方案，可用于存储大型数据集以进行模型训练、存储应用的输入/输出文件或模型工件。
- 安全
  - Secret Manager 是一项密钥和凭据管理服务，可提供一种安全且集中化的方式来存储敏感数据（例如 API 密钥、密码和凭据），这些数据通常是 AI 应用与外部服务交互所必需的。
如需了解详情，请参阅连接到 Google Cloud 服务。
借助工具，AI 应用和模型可以与外部或在 Cloud Run 上运行的服务、API 或网站进行交互。

例如，如果您的 AI 应用是 AI 代理，您的代理可能会向 MCP 服务器发送请求以执行外部工具，或者使用在容器中运行的工具，例如代码执行、计算机使用、信息检索等。

在 Cloud Run 上托管模型以进行 AI 推理

除了构建使用大语言模型 (LLM) 的应用和代理之外，您还可以通过 Cloud Run 启用 GPU，以运行预训练或自定义的自部署模型进行 AI 推理。

借助 Cloud Run GPU，您可以处理运行计算需求量大的 AI 推理工作负载所需的众多操作。以容器映像或源代码的形式部署 AI 模型，并使用各种方法部署 Cloud Run 资源。

后续步骤

探索 Cloud Run AI 资源