在 Cloud Run 上运行 AI 解决方案

本指南概述了如何使用 Cloud Run 来托管应用、运行推理和构建 AI 工作流。

Cloud Run,用于托管 AI 应用、代理和可扩缩的 API 端点

Cloud Run 提供了一个全托管式平台,可扩缩 AI 应用和工作负载。

在 Cloud Run 上托管 AI 应用时,您通常会使用以下架构组件:

  • 提供服务和编排:将应用代码或容器部署到 Cloud Run。
  • AI 模型:您在应用中使用 Google 的 AI 模型、开源模型或自定义模型。
  • 集成:您可以连接到 Google Cloud 服务或第三方服务,以实现内存、数据库、存储、安全等功能。
  • 工具:您可以连接到其他工具以执行其他任务和操作。

下图简要展示了如何使用 Cloud Run 作为 AI 应用的托管平台:

在 Cloud Run 上托管的 AI 应用的四个组成部分:
    1. 服务和编排,2. AI 模型集成工具
图 1:托管在 Cloud Run 上的 AI 应用的组件。

如图所示:

  1. 服务和编排层中,Cloud Run 服务充当应用核心逻辑的可扩缩 API 端点。它通过自动、按需、快速扩缩实例来高效管理多个并发用户。

    您自带容器,以便部署到 Cloud Run。您可以将应用及其依赖项打包到容器中,也可以提供源代码,让 Cloud Run 自动将代码构建到容器中以进行部署。对于源代码部署,您可以使用任何语言、开放框架或 SDK 来构建 AI 应用。

  2. 您的 AI 应用充当可扩缩的 API 端点,用于处理传入的请求并将数据发送到预训练的 AI 模型进行处理,然后返回结果。

    Cloud Run 与 Gemini 和 Vertex AI 模型等 Google 模型集成,还可以与 Llama 和 Gemma 等开源模型集成。如果您有自己训练的自定义模型,也可以将该模型与 Cloud Run 资源搭配使用。

  3. Google Cloud 提供各种解决方案来支持 AI 应用的基础设施。 以下是一些与 AI 应用搭配使用的Google Cloud 集成

    • 内存和数据库
      • 短期
        • Memorystore 是一项缓存和临时高访问数据管理服务,可为短期数据存储提供快速的外部缓存。
      • 长期
        • AlloyDB for PostgreSQL 是一款与 PostgreSQL 兼容的数据库,专为要求严苛的事务型和分析型工作负载而设计。它提供内置的向量嵌入生成功能和高速向量索引,与标准 pgvector 实现相比,可快速进行语义搜索。
        • Cloud SQL 是一项适用于 MySQL、PostgreSQL 和 SQL Server 的关系型数据库服务,还可以通过 PostgreSQL 的 pgvector 扩展程序充当向量存储区。
        • Firestore 是一种可扩缩的 NoSQL 文档数据库服务,包含内置的向量搜索功能。
    • 存储
      • Cloud Storage 是一种对象存储解决方案,可用于存储大型数据集以进行模型训练、存储应用的输入/输出文件或模型工件。
    • 安全
      • Secret Manager 是一项密钥和凭据管理服务,可提供一种安全且集中化的方式来存储敏感数据(例如 API 密钥、密码和凭据),这些数据通常是 AI 应用与外部服务交互所必需的。

    如需了解详情,请参阅连接到 Google Cloud 服务

  4. 借助工具,AI 应用和模型可以与外部或在 Cloud Run 上运行的服务、API 或网站进行交互。

    例如,如果您的 AI 应用是 AI 代理,您的代理可能会向 MCP 服务器发送请求以执行外部工具,或者使用在容器中运行的工具,例如代码执行、计算机使用、信息检索等。

在 Cloud Run 上托管模型以进行 AI 推理

除了构建使用大语言模型 (LLM) 的应用和代理之外,您还可以通过 Cloud Run 启用 GPU,以运行预训练或自定义的自部署模型进行 AI 推理。

借助 Cloud Run GPU,您可以处理运行计算需求量大的 AI 推理工作负载所需的众多操作。以容器映像或源代码的形式部署 AI 模型,并使用各种方法部署 Cloud Run 资源。

后续步骤