El Analizador de formularios extrae pares clave-valor (KVP), tablas, marcas de selección (casillas de verificación) y campos genéricos para aumentar y automatizar la extracción. Puede extraer hasta 11 entidades genéricas y casillas de verificación listas para usar. No especificas los campos (esquema) que deseas extraer con el Analizador de formularios. El modelo detecta y devuelve entidades de interés de cada página de los documentos.
Extractor personalizado
El extractor personalizado extrae entidades que defines en el esquema y ofrece tres opciones de modelado: modelo base, modelo personalizado basado en datos y modelo personalizado basado en plantillas. Dado que los modelos de base arrojan resultados prometedores con pocos datos de entrenamiento o sin ellos, te recomendamos que comiences con el modelo de base como primera opción y pruebes otras opciones según sea necesario.
Los modelos de base realizan predicciones con pocos o ningún ejemplo, según hasta 5 documentos etiquetados en el conjunto de datos, y predicciones ajustadas con más de 10 documentos etiquetados en el conjunto de datos.
Método de entrenamiento
Ejemplos de documentos
Variación del diseño del documento
Texto o párrafos de formato libre
Cantidad de documentos de entrenamiento para una calidad lista para la producción, según la variabilidad
Modelo de ajuste y de base (IA generativa)
Contrato, condiciones del servicio, factura, estado de cuenta, conocimiento de embarque o comprobantes de pago
De mayor a menor (opción preferida)
Alto.
Mediana: De 0 a más de 50 documentos
Modelo personalizado.
Modelo.
Formularios similares con variación de diseño entre años o proveedores (por ejemplo, el W9)
De baja a media.
Baja.
Alta: De 10 a más de 100 documentos
Plantilla.
Formularios fiscales con un diseño fijo (por ejemplo, los formularios 941 y 709)
Ninguno
Baja.
Baja (3 documentos).
Dado que los modelos de base suelen requerir menos documentos de entrenamiento, se recomiendan como la primera opción para todos los diseños de variables.
Analizador de diseño
El analizador de diseño transforma documentos en varios formatos en representaciones estructuradas, lo que hace que el contenido, como párrafos, tablas, listas y elementos estructurales, como encabezados, encabezados de página y pies de página, sea accesible, y crea fragmentos contextuales que facilitan la recuperación de información en una variedad de apps de IA generativa y descubrimiento.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[[["\u003cp\u003eDocument AI offers tools like Form Parser, Custom extractor, and Layout Parser for extracting information from documents based on various use cases.\u003c/p\u003e\n"],["\u003cp\u003eForm Parser automatically extracts key-value pairs, tables, selection marks, and up to 11 generic entities without needing a predefined schema.\u003c/p\u003e\n"],["\u003cp\u003eThe Custom extractor allows users to define their extraction schema and offers three modeling options: foundation model, custom model-based, and custom template-based.\u003c/p\u003e\n"],["\u003cp\u003eFoundation models in Custom extractors are recommended as the first option due to their ability to perform with minimal training data.\u003c/p\u003e\n"],["\u003cp\u003eLayout Parser transforms documents into structured data, identifying elements such as paragraphs, tables, lists, headings, and headers/footers, for use in information retrieval and generative AI applications.\u003c/p\u003e\n"]]],[],null,["# Extraction overview\n===================\n\nDocument AI offers multiple products to extract information from documents\nfor different use cases:\n\n- [Form Parser](#form-parser)\n- Custom extractor, which offers three different modeling types:\n\n - Foundation model\n - Custom model based\n - Custom template based\n- [Layout Parser](#layout-parser)\n\nForm Parser\n-----------\n\nForm Parser extracts key-value pairs (KVP), tables, selection marks (checkboxes),\nand generic fields to augment and automate extraction. It can extract up to 11\ngeneric entities and checkboxes out of the box. You don't specify the fields (schema),\nyou want to extract with the Form Parser. The model detects and returns entities\nof interest from each page of documents.\n\nCustom extractor\n----------------\n\nThe custom extractor extracts entities you define in schema and offers three modeling options:\nfoundation model, custom model based, and custom template based. Given promising\nresults from foundation models with little to no training data, we recommend starting\nwith the foundation model as the first option and try out other options as needed.\nThe foundation models do zero- to few-shot prediction, based on up to 5 labeled\ndocuments in the dataset, and fine-tuned prediction with more than 10 labeled documents in the dataset.\n\nBecause foundation models typically require fewer training documents, they're\nrecommended as the first option for all variable layouts.\n\nLayout Parser\n-------------\n\n| **Note:** Layout Parser is in Public preview\n\nLayout Parser transforms documents in various formats into structured\nrepresentations, making content like paragraphs, tables, lists, and structural\nelements like headings, page headers, and footers accessible, and creating\ncontext-aware chunks that facilitate information retrieval in a range of\ngenerative AI and discovery apps."]]