Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Escolher uma função de processamento de documentos
Neste documento, você encontra uma comparação das funções de processamento de documentos
disponíveis no BigQuery ML, que são
ML.GENERATE_TEXT
e
ML.PROCESS_DOCUMENT.
Use as informações deste documento para decidir qual função usar nos casos em que as funções têm recursos sobrepostos.
De modo geral, a diferença entre essas funções é a seguinte:
ML.GENERATE_TEXT é uma boa opção para executar tarefas de processamento de linguagem
natural (PLN) em que parte do conteúdo está em
documentos. Essa função oferece os seguintes benefícios:
O ML.PROCESS_DOCUMENT é uma boa escolha para realizar tarefas de processamento de documentos
que exigem análise de documentos e uma resposta estruturada predefinida.
Modelos compatíveis
Os modelos compatíveis são os seguintes:
ML.GENERATE_TEXT: é possível usar um subconjunto dos modelos Gemini da Vertex AI para gerar texto. Para mais informações sobre modelos compatíveis, consulte a
sintaxe ML.GENERATE_TEXT.
ML.PROCESS_DOCUMENT: você usa o modelo padrão da API Document AI. O uso da API Document AI
dá acesso a vários processadores de documentos diferentes, como o
analisador de faturas, de layout e de formulários. É possível usar esses processadores de
documentos para trabalhar com arquivos PDF com muitas estruturas diferentes.
Tarefas compatíveis
As tarefas com suporte são estas:
ML.GENERATE_TEXT: é possível realizar qualquer tarefa de PLN em que a entrada seja um
documento. Por exemplo, dado um documento financeiro de uma empresa,
é possível recuperar informações do documento fornecendo um comando, como What is
the quarterly revenue for each division?.
ML.PROCESS_DOCUMENT: é possível realizar o processamento especializado de documentos para
diferentes tipos, como faturas, declarações fiscais e extratos
financeiros. Você também pode dividir documentos. Para mais informações sobre como usar a função ML.PROCESS_DOCUMENT para essa tarefa, consulte
Extrair PDFs em um pipeline de geração com recuperação aprimorada.
Preços
O preço é o seguinte:
ML.GENERATE_TEXT: para conferir os preços dos modelos da Vertex AI que você usa com essa função, consulte Preços da Vertex AI.
O ajuste supervisionado de modelos compatíveis é cobrado em dólares por hora de uso do nó.
Para mais informações, consulte
Preços do treinamento personalizado da Vertex AI.
ML.PROCESS_DOCUMENT: para saber os preços do serviço de IA do Cloud que você usa com essa função, consulte Preços da API Document AI.
ML.PROCESS_DOCUMENT: não há suporte para o ajuste supervisionado.
Limite de consultas por minuto (QPM)
Os limites de QPM são os seguintes:
ML.GENERATE_TEXT: 60 QPM na região us-central1 padrão para
modelos gemini-1.5-pro e 200 QPM na região us-central1 padrão para
modelos gemini-1.5-flash. Para mais informações, consulte
IA generativa em cotas da Vertex AI.
ML.PROCESS_DOCUMENT: 120 QPM por tipo de processador, com um limite geral de
600 QPM por projeto. Para mais informações, consulte a
lista de cotas.
ML.GENERATE_TEXT: 700 tokens de entrada e 8.196 tokens de saída.
ML.PROCESS_DOCUMENT: sem limite de tokens. No entanto, essa função tem
limites de página diferentes, dependendo do processador usado. Para mais
informações, consulte Limites.
Idiomas disponíveis
Os idiomas compatíveis são os seguintes:
ML.GENERATE_TEXT: oferece suporte aos mesmos idiomas do
Gemini.
ML.PROCESS_DOCUMENT: o suporte a idiomas depende do tipo de processador de documentos. A maioria oferece suporte apenas ao inglês. Para mais informações, consulte a
lista de processadores.
Disponibilidade por região
A disponibilidade por região é a seguinte:
ML.GENERATE_TEXT: disponível em todas as regiões de IA generativa para a Vertex AI.
ML.PROCESS_DOCUMENT: disponível nas multirregiõesEU e US para todos os processadores.
Alguns processadores também estão disponíveis em determinadas regiões. Para mais
informações, consulte
Suporte regional e multirregional.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-04 UTC."],[[["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e is suitable for natural language processing tasks within documents, offering benefits like lower costs, broader language support, faster processing, model tuning, and multimodal model options.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e excels in document processing tasks requiring structured responses and document parsing, and also supports working with different PDF file structures.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e uses a subset of Vertex AI Gemini models and supports a wide array of natural language processing tasks, while \u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e utilizes the Document AI API, with specialized document processing for tasks like parsing invoices or tax forms.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e supports supervised tuning for certain models, while \u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e does not have supervised tuning support.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e has higher language support and lower token limits, whereas \u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e depends on the document processor for language support and has no token limit, only page limits.\u003c/p\u003e\n"]]],[],null,["# Choose a document processing function\n=====================================\n\nThis document provides a comparison of the document processing functions\navailable in BigQuery ML, which are\n[`ML.GENERATE_TEXT`](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-generate-text)\nand\n[`ML.PROCESS_DOCUMENT`](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-process-document).\n\nYou can use the information in this document to help you decide which function\nto use in cases where the functions have overlapping capabilities.\n\nAt a high level, the difference between these functions is as follows:\n\n- `ML.GENERATE_TEXT` is a good choice for performing natural\n language processing (NLP) tasks where some of the content resides in\n documents. This function offers the following benefits:\n\n - Lower costs\n - More language support\n - Faster throughput\n - Model tuning capability\n - Availability of multimodal models\n\n For examples of document processing tasks that work best with this\n approach, see\n [Explore document processing capabilities with the Gemini API](https://ai.google.dev/gemini-api/docs/document-processing).\n- `ML.PROCESS_DOCUMENT` is a good choice for performing document processing\n tasks that require document parsing and a predefined, structured response.\n\nSupported models\n----------------\n\nSupported models are as follows:\n\n- `ML.GENERATE_TEXT`: you can use a subset of the Vertex AI [Gemini](/vertex-ai/generative-ai/docs/learn/models#gemini-models) models to generate text. For more information on supported models, see the [`ML.GENERATE_TEXT` syntax](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-generate-text#syntax).\n- `ML.PROCESS_DOCUMENT`: you use the default model of the [Document AI API](/document-ai). Using the Document AI API gives you access to many different document processors, such as the invoice parser, layout parser, and form parser. You can use these document processors to work with PDF files with many different structures.\n\nSupported tasks\n---------------\n\nSupported tasks are as follows:\n\n- `ML.GENERATE_TEXT`: you can perform any NLP task where the input is a document. For example, given a financial document for a company, you can retrieve document information by providing a prompt such as `What is\n the quarterly revenue for each division?`.\n- `ML.PROCESS_DOCUMENT`: you can perform specialized document processing for different document types, such as invoices, tax forms, and financial statements. You can also perform document chunking. For more information, on how to use the `ML.PROCESS_DOCUMENT` function fo this task, see [Parse PDFs in a retrieval-augmented generation pipeline](/bigquery/docs/rag-pipeline-pdf).\n\nPricing\n-------\n\nPricing is as follows:\n\n- `ML.GENERATE_TEXT`: For pricing of the Vertex AI models that you use with this function, see [Vertex AI pricing](/vertex-ai/generative-ai/pricing). Supervised tuning of supported models is charged at dollars per node hour. For more information, see [Vertex AI custom training pricing](/vertex-ai/pricing#custom-trained_models).\n- `ML.PROCESS_DOCUMENT`: For pricing of the Cloud AI service that you use with this function, see [Document AI API pricing](/document-ai/pricing).\n\nSupervised tuning\n-----------------\n\nSupervised tuning support is as follows:\n\n- `ML.GENERATE_TEXT`: [supervised tuning](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-create-remote-model#supervised_tuning) is supported for some models.\n- `ML.PROCESS_DOCUMENT`: supervised tuning isn't supported.\n\nQueries per minute (QPM) limit\n------------------------------\n\nQPM limits are as follows:\n\n- `ML.GENERATE_TEXT`: 60 QPM in the default `us-central1` region for `gemini-1.5-pro` models, and 200 QPM in the default `us-central1` region for `gemini-1.5-flash` models. For more information, see [Generative AI on Vertex AI quotas](/vertex-ai/generative-ai/docs/quotas).\n- `ML.PROCESS_DOCUMENT`: 120 QPM per processor type, with an overall limit of 600 QPM per project. For more information, see [Quotas list](/document-ai/quotas#quotas_list).\n\nTo increase your quota, see\n[Request a quota adjustment](/docs/quotas/help/request_increase).\n\nToken limit\n-----------\n\nToken limits are as follows:\n\n- `ML.GENERATE_TEXT`: 700 input tokens, and 8196 output tokens.\n- `ML.PROCESS_DOCUMENT`: No token limit. However, this function does have different page limits depending on the processor you use. For more information, see [Limits](/document-ai/limits).\n\nSupported languages\n-------------------\n\nSupported languages are as follows:\n\n- `ML.GENERATE_TEXT`: supports the same languages as [Gemini](/vertex-ai/generative-ai/docs/learn/models#languages-gemini).\n- `ML.PROCESS_DOCUMENT`: language support depends on the document processor type; most only support English. For more information, see [Processor list](/document-ai/docs/processors-list).\n\nRegion availability\n-------------------\n\nRegion availability is as follows:\n\n- `ML.GENERATE_TEXT`: available in all Generative AI for Vertex AI [regions](/vertex-ai/generative-ai/docs/learn/locations#available-regions).\n- `ML.PROCESS_DOCUMENT`: available in the `EU` and `US` [multi-regions](/bigquery/docs/locations#multi-regions) for all processors. Some processors are also available in certain single regions. For more information, see [Regional and multi-regional support](/document-ai/docs/regions)."]]