什么是基础模型?

基础模型(有时称为基模型)是强大的人工智能 (AI) 模型,它们基于海量数据进行训练,并能够适应多种任务。“基础模型”一词由斯坦福以人为本人工智能研究院 (HAI) 于 2021 年提出

这项技术为各行各业带来了新的可能性,从简化软件开发到改善客户服务互动。

Google Cloud 上的基础模型简介

基础模型定义

基础模型是一类 AI 模型,基于大量数据进行预训练,从而能够执行多种任务。这种训练过程通常采用自监督学习,使模型能够学习数据中的复杂模式和关系,从而以更高的准确率执行多种任务。更重要的是,这种大规模可能带来涌现能力,即模型能够完成并未经过明确训练的任务。这种从专用工具向适应性更强的通用模型的转变,是基础模型范式的显著特征。

基础模型与 LLM 有何区别?

“基础模型”和大语言模型 (LLM) 这两个术语经常互换使用,但它们之间存在一个关键区别。LLM 是基础模型的一种主要类型,但并非唯一类型。您可以将其视为一种父子关系:所有 LLM 都是基础模型,但并非所有基础模型都是 LLM。

主要区别在于它们所基于的数据类型。顾名思义,LLM 专门使用大量文本和代码进行训练。“基础模型”这一更广泛的类别还包括基于其他数据类型(如图片、音频和视频)或这些数据类型的组合(多模态)训练的模型。

生成式 AI 与基础模型有何区别?

生成式 AI 和基础模型是不同的概念,但密切相关。理解两者区别的最佳方式是将它们分别视为“引擎”和“功能”:

  • 基础模型是强大的预训练引擎;它是基于海量数据构建的底层技术,旨在适应各种应用场景
  • 生成式 AI 是该引擎可以执行的一项主要功能,即能够创建文本、图片或代码等新内容

虽然大多数热门基础模型都用于生成任务,但基础模型也可以用于非生成目的,例如复杂分类或分析。因此,并非所有基础模型本质上都是生成式的,但它们是推动当前生成式 AI 应用浪潮的关键技术。

基础模型有哪些类型?

基础模型包含各种架构,每种架构都具有独特的优势和应用。以下是一些值得注意的类型:

  • 大语言模型 (LLM):这些模型擅长理解和生成人类语言,在翻译、文本摘要和聊天机器人交互等任务中表现出色。
  • 多模态模型:这些模型基于多种数据类型(包括文本、图片和音频)进行训练,可以跨多种模态分析和生成内容。
  • 生成对抗网络 (GAN)GAN 是一种基础模型,由两个神经网络在零和博弈中相互对抗而构成。一个网络(生成器)负责创建新的数据实例,另一个网络(判别器)负责评估这些实例的真实性。这种对抗过程会生成越来越逼真和复杂的内容。
  • 计算机视觉模型:这些模型基于图像数据集进行训练,可执行图像分类、目标检测和图像生成等任务。它们可以针对特定应用进行微调,例如医学图像分析或自动驾驶汽车中的对象识别。

基础模型的工作原理是什么?

基础模型基于庞大的数据集,采用自监督学习方法进行训练。自监督学习是一种机器学习方法,它利用无监督学习技术来完成传统上需要监督学习的任务(例如,通过人工输入为数据加上标签)。这有助于训练模型预测输入数据中被掩盖或缺失的部分。随着模型不断进行预测,它会学习识别数据中的模式、关系以及底层结构。

基础模型的训练过程与机器学习模型的训练过程类似,通常包括以下几个关键步骤:

收集并准备数据

  • 收集一个庞大而多样化的数据集,以代表模型在部署时可能遇到的数据的真实分布
  • 对数据进行预处理,以消除噪声、离群值和不一致性;这可能包括数据清理、归一化和特征工程等技术

模型架构选择

  • 根据任务的复杂性、数据的类型和数量以及可用的计算资源等因素,选择适当的模型架构
  • 用于自监督学习的常见模型架构包括卷积神经网络 (CNN)、循环神经网络 (RNN) 和 Transformer

自监督训练

  • 该模型通过自监督学习技术进行训练,其中包括为数据创建伪标签,并训练模型预测这些标签
  • 这可以通过多种方法实现,例如对比学习、掩码语言建模和拼图任务
  • 自监督训练使模型能够在不依赖人工标注标签的情况下学习数据的有用表示,而获取这些标签往往既昂贵又耗时

微调

  • 使用自监督学习对模型进行预训练后,可以针对更小众、更特定于任务的数据集进行微调
  • 这需要调整模型的参数,以优化模型在目标任务上的性能
  • 微调有助于模型适应任务的特定要求并提高整体性能

对齐和安全训练

  • 经过预训练和微调后,大多数先进模型都会经历一个对齐阶段,以确保其输出内容有用、无害且符合人类意图
  • 这一关键步骤通常会使用基于人类反馈的强化学习 (RLHF) 和直接偏好优化 (DPO) 等技术,由人工审核人员对模型的回答进行评分,从而引导模型生成更符合期望的行为

评估和部署

  • 模型经过训练和微调后,会在预留的测试集上进行评估,以衡量其性能
  • 如果模型满足所需的性能标准,则可以将其部署到生产环境中,用于解决实际问题

使用基础模型的好处

基础模型可为企业和开发者带来以下几项潜在优势:

用途广泛

基础模型能够适应多种任务,无需为每个具体应用单独训练模型。这种适应性使它们在各行各业及多种应用场景中都具有价值。

提升效率

使用预训练的基础模型可以显著减少开发新 AI 应用所需的时间和资源。微调预训练模型通常比从头开始训练模型更快、更高效。

准确率

由于基础模型在庞大数据集上进行了广泛训练,因此能够在各种任务中实现高准确率,性能优于在小数据集上训练的模型。

成本效益

基础模型可以减少对大量训练数据和计算资源的需求,为开发 AI 应用提供经济高效的解决方案。

创新

基础模型正在推动 AI 领域的创新,有助于开发出新的、更复杂的 AI 应用。

可伸缩性

基础模型可以扩展以处理大型数据集和复杂任务,因此适用于高要求的应用。

基础模型存在哪些挑战和风险?

尽管基础模型具有显著优势,但用户和开发者必须应对以下重大挑战:

  • 偏见和公平性:基础模型可能会继承并放大其庞大训练数据中存在的社会偏见,从而导致不公平或有偏见的输出
  • 幻觉:模型可能会生成听起来很自信但实际上不正确或无意义的信息,这种现象称为“幻觉
  • 高计算成本:训练这些模型需要巨大的计算能力和能源,从而引发环境和财务方面的担忧

基础模型示例

基础模型生态系统充满活力,竞争激烈。以下是一些来自主要行业参与者的最具影响力的示例:

  • Google:以 Gemini 系列而闻名,该系列是一组强大的多模态模型(Gemini 2.5 Pro 是一个典型例子),还有 Gemma,这是一组面向开发者的开放权重轻量级模型;Google 还开发了专门的模型,例如用于文生图的 Imagen 和用于视频生成的 Veo
  • OpenAI:开发了极具影响力的 GPT(生成式预训练转换器)系列,包括广泛使用的 GPT-4
  • Anthropic:专注于 AI 安全,开发了 Claude 系列模型;Claude 3 系列(包括 Opus、Sonnet 和 Haiku)以其较大的上下文窗口和强大的推理能力而闻名
  • Meta:Meta 是开源 AI 的主要倡导者,开发了 Llama 系列;Llama 3 是一款开放模型,加速了整个社区的创新
  • Mistral AI:一家欧洲公司,凭借高性能的开源模型和商业模型(例如 Mistral Large 和开源 Mixtral 模型)获得了广泛关注,这些模型采用混合专家 (MoE) 架构以提升效率

Google Cloud 如何使用基础模型?

Google Cloud 提供端到端企业平台 Vertex AI,旨在帮助组织访问、自定义和部署基础模型,以用于实际应用。该策略建立在提供多样化选择、强大工具和集成式基础设施的基础之上。

Google Cloud 使用基础模型的方式如下:

  • 多样化且开放的模型生态系统:通过 Vertex AI Model Garden,Google Cloud 提供了一个包含 130 多个基础模型的综合库。其中包括 Google 自己的先进模型,例如 Gemini 系列(用于多模态任务)和 Gemma(用于开放式轻量级开发),以及来自 Anthropic (Claude)、Meta (Llama) 和 Mistral 等合作伙伴的热门第三方模型和开源模型。这样,开发者就可以根据自己的特定成本和性能需求选择最佳模型。
  • 用于自定义和语义落地的工具Vertex AI 提供了一整套工具,可帮助您突破仅依赖简单提示的局限。借助 Generative AI Studio,团队可以测试和调优模型。一个关键功能是能够将模型与组织的企业数据进行语义落地。这会将模型的推理能力与公司的特定数据源相结合,从而显著减少幻觉,使回答在事实层面更一致且更具相关性。
  • 构建 AI 智能体和应用:Google Cloud 专注于帮助开发者构建复杂的 AI 应用,而不仅仅是聊天机器人。借助 Vertex AI Agent Builder,组织可以创建和部署对话式 AI 智能体,用于客户服务、内部服务台和其他业务流程。
  • 将生成式 AI 融入工作流:基础模型正在直接集成到企业已在使用的 Google Cloud 服务中。例如,Gemini Code Assist 可作为 AI 赋能的助理,帮助开发者更快地编写、解释和测试代码,而 BigQuery 中的功能则允许直接在数据仓库中进行 AI 驱动的数据分析。

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。