Generative AI on Vertex AI 概览

借助 Generative AI on Vertex AI(也称为 genAI 或生成式 AI),您可以访问许多大型生成式 AI 模型,以便对其进行评估、调整和部署,从而用于 AI 赋能的应用。本页面简要介绍了 Vertex AI 上的生成式 AI 工作流、可用的功能和模型,并引导您了解入门资源。

生成式 AI 工作流

下图简要介绍了生成式 AI 工作流。

生成式 AI 工作流图

提示

提示

生成式 AI 工作流通常从提示开始。提示是发送到生成式 AI 模型以引出回答的请求。根据模型的不同,提示可以包含文本、图片、视频、音频、文档和其他模态,甚至包含多模态(多模态提示)。

创建提示以从模型获取所需回答的做法称为提示设计。 虽然提示设计是一个试验和试错过程,但您可以利用提示设计原则和策略来智能调整模型,使其行为符合预期。Vertex AI Studio 提供提示管理工具,可帮助您管理提示。

基础模型

基础模型

提示会发送到生成式 AI 模型以生成回答。 Vertex AI 具有可通过托管 API 访问的各种生成式 AI 基础模型,包括:

  • Gemini API:高级推理、多轮聊天、代码生成和多模态提示。
  • Imagen API:图片生成、图片修改和视觉标注。
  • MedLM:医学问题回答和摘要。(非公开正式版

这些模型的大小、模态和费用各有不同。您可以在 Model Garden 中探索 Google 模型,以及 Google 合作伙伴提供的开放模型和其他模型。

模型自定义

模型自定义

您可以自定义 Google 基础模型的默认行为,以便在不使用复杂提示的情况下始终生成所需的结果。此自定义过程称为模型调优。模型调优可让您简化提示,从而帮助您降低请求的费用并缩短延迟时间。

Vertex AI 还提供模型评估工具,可帮助您评估经过调优的模型的性能。在经过调优的模型可用于生产后,您可以像在标准 MLOps 工作流中一样将其部署到端点并监控性能。

请求增强

增强

Vertex AI 提供多种请求增强方法,可让模型访问外部 API 和实时信息。

  • 建立依据:将模型回答连接到真实来源(例如您自己的数据或网页搜索),有助于减少幻觉。
  • RAG:将模型连接到外部知识源(例如文档和数据库),以生成更准确的且信息丰富的回答。
  • 函数调用:让模型与外部 API 交互,以获取实时信息并执行实际任务。

引用检查

引用检查

生成响应后,Vertex AI 会检查响应中是否需要包含引用。如果响应中有大量文本来自特定来源,则该来源会添加到响应中的引用元数据。

Responsible AI 和安全

Responsible AI 和安全

在返回提示和响应之前要经过的最后一层检查是安全过滤器。Vertex AI 会检查提示和回答,以了解提示或回答属于安全类别的程度。如果一个或多个类别超过阈值,则响应会被阻止,Vertex AI 将返回后备响应

响应

响应

如果提示和响应通过了安全过滤器检查,则系统会返回响应。通常,系统会一次性返回所有回答。但是,您也可以通过启用流式传输来逐步接收生成的响应。

生成式 AI API 和模型

Vertex AI 中提供的生成式 AI 模型(也称为基础模型)按其设计生成的内容类型进行分类。这些内容包括文本、聊天、图片、代码、视频、多模态数据和嵌入。每个模型都通过特定于您的 Google Cloud 项目的发布者端点公开,因此您无需部署基础模型,除非您需要针对特定应用场景进行调优。

Gemini API 产品

Vertex AI Gemini API 包含由 Google DeepMind 开发的 Gemini 模型的发布商端点。

  • Gemini 1.5 Pro(预览版支持多模态提示。您可以在提示请求中添加文本、图片、音频、视频和 PDF 文件,并获取文本或代码回答。与 Gemini 1.0 Pro Vision 相比,Gemini 1.5 Pro(预览版)可以处理更大的图片集合、更大的文本文档和更长的视频。
  • Gemini 1.0 Pro 旨在处理自然语言任务、多轮文本和代码聊天以及代码生成。
  • Gemini 1.0 Pro Vision 支持多模态提示。您可以在提示请求中包含文本、图片、视频和 PDF,并获取文本或代码回答。

下表显示了 Gemini 模型之间的一些差异,可帮助您选择最适合自己的模型:

Gemini 模型 模态 上下文窗口
Gemini 1.0 Pro/Gemini 1.0 Pro Vision
  • 文本、代码、PDF (Gemini 1.0 Pro Vision)
  • 最多 16 张图片
  • 视频时长不超过 2 分钟
  • 输入 8,192 个词元
  • 输出 2,048 个词元
Gemini 1.5 Pro(预览版
  • 文本、代码、图片、音频、视频、PDF
  • 最多 3,000 张图片
  • 长达 8.4 小时的音频
  • 长达 1 小时的带音频的视频
  • 输入 100 万个词元
  • 输出 8,192 个词元

PaLM API 产品

Vertex AI PaLM API 包含发布商端点以用于 Google 的 Pathways 语言模型 2 (PaLM 2),该模型是大语言模型 (LLM),可生成文本和代码来回复自然环境语言提示。

  • 用于文本的 PaLM API 针对分类、汇总和实体提取等语言任务进行了微调。
  • 用于聊天的 PaLM API 针对多轮聊天进行了微调,模型可以在聊天中跟踪之前的消息,并将其用作生成新回复的上下文。

其他生成式 AI 产品

  • 文本嵌入为输入文本生成向量嵌入。您可以将嵌入用于语义搜索、推荐、分类和离群值检测等任务。

  • 多模态嵌入根据图片和文本输入生成向量嵌入。这些嵌入稍后可用于其他后续任务,例如图片分类或内容推荐。

  • Imagen 是我们的文本转图片基础模型,可让您大规模生成和自定义工作室级图片。

  • 合作伙伴模型是由 Google 合作伙伴公司开发的一系列精选生成式 AI 模型。这些生成式 AI 模型以托管式 API 的形式提供。例如,Anthropic 以 Vertex AI 上的服务形式提供其 Claude 模型

  • 您可以在 Vertex AI 或其他平台上部署开放模型(如 Llama)。

  • MedLM 是面向医疗保健行业微调的一系列基础模型。

认证和安全控制

Vertex AI 支持 CMEK、VPC Service Controls、数据驻留和 Access Transparency。生成式 AI 功能有一些限制。如需了解详情,请参阅生成式 AI 安全控制

开始使用