选择文档处理函数

本文档对 BigQuery ML 中提供的文档处理函数(即 ML.GENERATE_TEXTML.PROCESS_DOCUMENT)进行了比较。

当函数具有重叠功能时,您可以参考本文档中的信息来确定要使用哪个函数。

概括来讲,这些函数之间的区别如下:

  • ML.GENERATE_TEXT 非常适合执行自然语言处理 (NLP) 任务,其中部分内容位于文档中。此函数具有以下优势:

    • 费用更低
    • 支持更多语言
    • 吞吐量更高
    • 模型调优功能
    • 多模态模型的可用性

    如需了解最适合此方法的文档处理任务示例,请参阅探索 Gemini API 的文档处理功能

  • ML.PROCESS_DOCUMENT 非常适合执行需要文档解析和预定义结构化响应的文档处理任务。

支持的模型

支持的型号如下:

  • ML.GENERATE_TEXT:您可以使用 Vertex AI Gemini 模型的一部分来生成文本。如需详细了解支持的模型,请参阅 ML.GENERATE_TEXT 语法
  • ML.PROCESS_DOCUMENT:您使用 Document AI API 的默认模型。使用 Document AI API 可让您访问许多不同的文档处理器,例如账单解析器、布局解析器和表单解析器。您可以使用这些文档处理器处理具有许多不同结构的 PDF 文件。

支持的任务

支持的任务如下:

  • ML.GENERATE_TEXT:您可以执行任何输入为文档的 NLP 任务。例如,如果给定的是某个公司的财务文档,您可以通过提供 What is the quarterly revenue for each division? 等提示来检索文档信息。
  • ML.PROCESS_DOCUMENT:您可以针对不同的文档类型(例如账单、税表和财务报表)执行专门的文档处理。您还可以执行文档分块。如需详细了解如何使用 ML.PROCESS_DOCUMENT 函数执行此任务,请参阅在检索增强生成流水线中解析 PDF 文件

价格

价格如下所示:

  • ML.GENERATE_TEXT:如需了解与此函数搭配使用的 Vertex AI 模型的价格,请参阅 Vertex AI 价格。对受支持模型的监督式调优按每节点时美元收费。如需了解详情,请参阅 Vertex AI 自定义训练价格
  • ML.PROCESS_DOCUMENT:如需了解与此函数搭配使用的 Cloud AI 服务的价格,请参阅 Document AI API 价格

监督式调优

监督式调优支持如下:

  • ML.GENERATE_TEXT:某些模型支持监督式调优
  • ML.PROCESS_DOCUMENT:不支持监督式调优。

每分钟查询次数 (QPM) 限额

QPM 限制如下:

  • ML.GENERATE_TEXTgemini-1.5-pro 模型在默认的 us-central1 区域中的 QPM 为 60,gemini-1.5-flash 模型在默认的 us-central1 区域中的 QPM 为 200。如需了解详情,请参阅 Vertex AI 上的生成式 AI 配额
  • ML.PROCESS_DOCUMENT:每种处理器类型 120 QPM,每个项目的总限制为 600 QPM。如需了解详情,请参阅配额列表

如需增加配额,请参阅申请更高配额

词元限制

令牌限制如下:

  • ML.GENERATE_TEXT:700 个输入词元和 8196 个输出词元。
  • ML.PROCESS_DOCUMENT:没有令牌限制。不过,此函数的页面数限制因您使用的处理器而异。如需了解详情,请参阅限制

支持的语言

支持的语言如下:

  • ML.GENERATE_TEXT:支持与 Gemini 相同的语言。
  • ML.PROCESS_DOCUMENT:支持的语言取决于文档处理器类型;大多数文档处理器仅支持英语。如需了解详情,请参阅处理方列表

区域可用性

推出区域如下:

  • ML.GENERATE_TEXT:适用于所有适用于 Vertex AI 的生成式 AI 区域
  • ML.PROCESS_DOCUMENT:适用于所有处理器的 EUUS 多区域。部分处理器也仅在某个特定区域提供。如需了解详情,请参阅区域性和多区域性支持