有关安全的最佳实践

大语言模型 (LLM) 可以翻译语言、汇总文本、生成创意写作、生成代码、为聊天机器人和虚拟助理提供支持,以及对搜索引擎和推荐系统进行补充。同时,作为早期技术,它的不断发展的功能和使用方式可能会造成误用、滥用以及意外或不可预见的后果。大语言模型可能会生成意料之外的输出,包括令人反感、不顾他人感受或事实上不正确的文本。

更重要的是,LLM 的强大多样性也使得很难准确预测它们可能会产生的意外或不可预见的输出。鉴于这些风险和复杂情况,Vertex AI 生成式 AI API 在设计时考虑到了 Google 的 AI 原则。但是,开发者必须了解和测试其模型,以便以负责任的方式安全部署。为帮助开发者,Vertex AI Studio 具有内置内容过滤功能,而生成式 AI API 具有安全属性打分功能,可帮助客户测试 Google 的安全过滤器并定义适合其应用场景和业务的置信度阈值。如需了解详情,请参阅安全过滤器和属性部分。

生成式 API 集成到您的独特应用场景和语境中时,您可能需要考虑其他 Responsible AI 注意事项和限制。我们建议客户采用公平性、可解释性、隐私权和安全推荐实践

安全过滤器和属性

如需了解如何对 API 使用安全过滤器和属性,请参阅以下页面:

模型限制

使用生成式 AI 模型时可能会遇到的限制包括(但不限于):

  • 边缘情况:边缘情况是指训练数据中没有充分代表的不常见、罕见或异常情况。这些情况会导致模型的性能受到限制,例如模型过度置信度、对语境的误解或不当输出。

  • 模型幻觉、依据和真实性:生成式 AI 模型可能缺乏对真实知识、物理属性或准确理解的真实性。此限制可能导致模型幻觉,即模型生成的输出可能听起来很合理,但实际上不正确、不相关、不当或无意义。 为降低这种可能性,您可以根据特定数据构建模型。如需详细了解 Vertex AI 中的依据,请参阅依据概览

  • 数据质量和调优:输入到模型中的提示或数据的质量、准确性和偏差可能会对其性能产生重大影响。如果用户输入的数据或提示不正确,则模型的性能可能欠佳或模型输出错误。

  • 偏见放大:生成式 AI 模型可能会无意中放大其训练数据中现有的偏见,导致输出可能进一步加剧社会偏见以及对某些群体的不平等对待。

  • 语言质量:虽然这些模型在与我们评估的基准上产生了出色的多语言功能,但大多数基准(包括所有公平性评估)都是采用英语的。如需了解详情,请参阅 Google 研究博客

    • 生成式 AI 模型可能会为不同用户提供不一致的服务质量。例如,由于训练数据中的代表性不足,文本生成可能对某些方言或语言变体不太有效。对于非英语语言或表示法较少的英语变体,性能可能较差。
  • 公平性基准和子群组:Google 研究对生成式 AI 模型的公平性分析并未详尽说明各种潜在风险。例如,我们关注性别、种族、种族和宗教轴线上的偏见,但仅对英语数据和模型输出进行分析。如需了解详情,请参阅 Google 研究博客

  • 有限的领域专业知识:生成式 AI 模型可能缺乏必需的知识深度,无法就高度专业化或技术主题提供准确、详细的响应,导致肤浅或不正确的信息。对于特殊、复杂的应用场景,模型应根据特定领域的数据进行调优,并且在可能对个人权利产生实质性影响的情况下,必须进行有意义的人工监督。

  • 输入和输出的长度和结构:生成式 AI 模型具有输入和输出词元数量上限。如果输入或输出超出此限制,系统将不会应用安全分类器,这最终可能导致模型性能不佳。虽然模型设计为可以处理各种文本格式,但如果输入数据具有异常或复杂的结构,则其性能可能会受到影响。

要安全、负责任地使用这项技术,除了考虑内置的技术保障措施外,还必须考虑应用场景、用户和业务环境的其他特定风险。

我们建议您采取以下步骤:

  1. 评估应用的安全风险。
  2. 考虑进行调整,以降低安全风险。
  3. 执行适合您的应用场景的安全测试。
  4. 收集用户反馈并监控内容。

举报滥用行为

您可以采用以下表单来举报疑似服务滥用或任何包含不当资料或不准确信息的生成输出:在 Google Cloud 上举报疑似滥用行为

其他资源