Visão geral da extração
A Document AI oferece vários produtos para extrair informações de documentos para diferentes casos de uso:
- Analisador de formulários
Extrator personalizado, que oferece três tipos diferentes de modelagem:
- Modelo de fundação
- Com base em modelo personalizado
- Com base em um modelo personalizado
Analisador de formulários
O analisador de formulários extrai pares de chave-valor (KVPs), tabelas, marcas de seleção (caixas de seleção) e campos genéricos para aumentar e automatizar a extração. Ele pode extrair até 11 entidades genéricas e caixas de seleção prontas para uso. Você não especifica os campos (esquema) que quer extrair com o Analisador de formulários. O modelo detecta e retorna entidades de interesse de cada página de documentos.
Extrator personalizado
O extrator personalizado extrai entidades definidas no esquema e oferece três opções de modelagem: modelo de base, baseado em modelo personalizado e baseado em modelo personalizado. Considerando os resultados promissores dos modelos de base com poucos ou nenhum dado de treinamento, recomendamos começar com o modelo de base como a primeira opção e testar outras opções conforme necessário. Os modelos de base fazem previsões de zero a poucos exemplos, com base em até cinco documentos marcados no conjunto de dados, e previsões ajustadas com mais de 10 documentos marcados no conjunto de dados.
Método de treinamento | Exemplos de documentos | Variação do layout do documento | Texto ou parágrafos livres | Número de documentos de treinamento com qualidade para produção, dependendo da variabilidade | |
---|---|---|---|---|---|
Ajustar e definir o modelo de base (IA generativa). | Contrato, termos de serviço, fatura, extrato bancário, conhecimento de embarque, comprovantes de pagamento. | De alta para baixa (preferencial). | alto. | Médio: 0 a 50 documentos. | |
Modelo personalizado. | Modelo. | Formulários semelhantes com variação de layout ao longo dos anos ou dos fornecedores (por exemplo, W9). | Baixa a média. | Baixo. | Alta: de 10 a 100 documentos. |
Modelo. | Formulários fiscais com um layout fixo (por exemplo, os formulários 941 e 709). | Nenhuma. | Baixo. | Baixo (3 documentos). |
Como os modelos de base geralmente exigem menos documentos de treinamento, eles são recomendados como a primeira opção para todos os layouts de variáveis.
Analisador de layout
O Layout Parser transforma documentos em vários formatos em representações estruturadas, tornando o conteúdo acessível, como parágrafos, tabelas, listas e elementos estruturais, como títulos, cabeçalhos de página e rodapés, e criando blocos com reconhecimento de contexto que facilitam a recuperação de informações em vários apps de IA generativa e de descoberta.