选择文档处理函数

本文档对 BigQuery ML 中提供的文档处理函数进行了比较,这些函数分别为 ML.GENERATE_TEXTML.PROCESS_DOCUMENT。 在函数功能重叠的情况下,您可以使用本文档中的信息来帮助您确定要使用哪个函数。

概括来说,这些函数之间的区别如下:

  • ML.GENERATE_TEXT 非常适合执行其中部分内容位于文档中的自然语言处理 (NLP) 任务。此函数具有以下优势:

    • 费用更低
    • 推出更多语言版本
    • 吞吐量速度更快
    • 模型调优功能
    • 提供多模态模型

    如需查看此方法最适合处理的文档处理任务示例,请参阅使用 Gemini API 探索文档处理功能

  • ML.PROCESS_DOCUMENT 非常适合执行需要文档解析和预定义结构化响应的文档处理任务。

函数比较

您可以使用下表比较 ML.GENERATE_TEXTML.PROCESS_DOCUMENT 函数:

ML.GENERATE_TEXT ML.PROCESS_DOCUMENT
用途

通过向 Gemini 或合作伙伴模型开放模型传递提示,执行任何与文档相关的 NLP 任务。

例如,如果提供的是某公司的财务文档,您可以通过提供提示(例如 What is the quarterly revenue for each division?)来检索文档信息。

使用 Document AI API 对不同类型的文档(例如账单、纳税表单和财务报表)执行专门的文档处理。您还可以执行文档分块。
结算

会产生 BigQuery ML 数据处理费用。如需了解详情,请参阅 BigQuery ML 价格

调用模型会产生 Vertex AI 费用。如果您使用的是 Gemini 2.0 或更高版本的模型,则相应调用会按批量 API 费率计费。如需了解详情,请参阅 Vertex AI 中构建和部署 AI 模型的费用

会产生 BigQuery ML 数据处理费用。如需了解详情,请参阅 BigQuery ML 价格

调用 Document AI API 会产生费用。如需了解详情,请参阅 Document AI API 价格

每分钟请求数 (RPM) 不适用于 Gemini 模型。合作伙伴模型:25 到 60。如需了解详情,请参阅每分钟请求数限制 每种处理器类型 120 RPM,每个项目的总限制为 600 RPM。 如需了解详情,请参阅配额列表
每分钟 token 数 范围从 8,192 到超过 100 万,具体取决于所用模型。 没有 token 限制。不过,此函数具有不同的页面限制,具体取决于您使用的处理器。如需了解详情,请参阅限制
监督式调优 某些模型支持监督式调优 不受支持。
支持的语言 支持因您选择的 LLM 而异。 语言支持取决于文档处理器类型;大多数类型仅支持英语。如需了解详情,请参阅处理器列表
支持的区域 在所有适用于 Vertex AI 的生成式 AI 区域均受支持。 在所有处理器的 EUUS 多区域均受支持。部分处理器还在某些单一区域中提供。如需了解详情,请参阅区域级和多区域级支持