Extrator personalizado com IA generativa

Deteção de campos derivados e assinaturas

A funcionalidade de campos derivados da pré-visualização pública permite que os clientes da IA Documentos configurem um campo para ser preenchido através de inferência ou geração inteligente com base no contexto do documento, em vez de extração direta de texto.

Esta versão também adiciona outra funcionalidade para detetar a presença de assinaturas em documentos. Pode usar o novo tipo de entidade signature para especificar um esquema para essas entidades. As entidades de assinatura são derivadas através de indicações visuais do documento.

Campos derivados no extrator personalizado

O extrator personalizado suporta campos derivados nos seguintes modelos:

  • pretrained-foundation-model-v1.4-2025-02-05 como disponibilidade geral (DG)
  • pretrained-foundation-model-v1.5-2025-05-05 como pré-visualização
  • pretrained-foundation-model-v1.5-pro-2025-06-20 como pré-visualização

Pode ativar estas funcionalidades na IU da consola quando criar ou editar etiquetas no esquema do documento.

Os campos derivados são uma funcionalidade poderosa que lhe permite extrair informações que não estão escritas explicitamente num documento. Isto permite-lhe configurar um campo para ser preenchido através de inferência ou geração inteligente com base no contexto geral do documento. Isto vai além da extração de texto rudimentar e suporta exemplos de utilização avançados, como:

  • Deduzir o país a partir de uma morada.
  • Contar o número total de itens numa tabela.
  • Detetar se um cartão de identificação é um "Real ID".

Exemplo de criação de esquemas

Segue-se um exemplo de criação de um esquema para campos derivados para estes exemplos de utilização e o resultado esperado, usando uma carta de condução dos EUA.

  1. Selecione o método Derived quando criar um elemento de esquema.

    cde-signature-detection-derived-field-1

  2. Adicione etiquetas descritivas para melhorar o desempenho.

    cde-signature-detection-derived-field-2

  3. Os campos derivados, como as assinaturas, não requerem a definição de caixas delimitadoras ao etiquetar documentos. Para Valor, selecione Detetado.

    cde-signature-detection-derived-field-3

  4. Para campos derivados que não sejam assinaturas, pode introduzir qualquer Valor como parte da etiquetagem para definir as possíveis saídas.

    cde-signature-detection-derived-field-4

O resultado esperado será semelhante ao seguinte, com a presença de uma assinatura devolvida como "Detected" ou "", e campos derivados devolvidos como texto, conforme solicitado na descrição da etiqueta.

cde-signature-detection-derived-field-5

Vista geral extraída vs. vista geral derivada

Quando define uma entidade no esquema do processador, pode escolher um método para determinar como o respetivo valor é preenchido.

  • Extrair: este é o método predefinido. Funciona quando o valor da entidade deve ser extraído diretamente do texto do documento. O sistema identifica o texto e preenche campos como textAnchor e pageAnchor para mostrar a respetiva localização.

  • Derivado: este método é usado quando o valor da entidade tem de ser inferido a partir do conteúdo do documento. Uma vez que o valor não está diretamente presente no texto, os campos textAnchor e pageAnchor não são preenchidos.

Exemplo de utilização: encontrar um código de moeda

Imagine que precisa de identificar o código da moeda (por exemplo, USD, CAD, EUR) para transações nos seus documentos.

  • Quando usar Extract: se os documentos contiverem consistentemente símbolos ou códigos de moeda inequívocos, como "USD" ou "€", use o método Extract para encontrar e extrair esse texto exato.

  • Quando usar Derived: se um documento usar um símbolo ambíguo, como "$" (que pode referir-se a USD, CAD, AUD, etc.) ou não tiver nenhum símbolo, use o método Derived. O modelo analisa o contexto do documento, como uma morada de faturação ou a localização da empresa, para inferir o código de moeda ISO 4217 correto.

Práticas recomendadas de configuração

Para obter os melhores resultados com campos derivados, recomendamos vivamente que escreva uma description clara e com instruções para a propriedade no seu esquema durante a etiquetagem. Isto ajuda a orientar o modelo na sua tarefa de derivação.

No exemplo do código de moeda, pode criar um campo com o nome currency_code e fornecer a seguinte descrição: "Encontre o código de moeda ISO 4217 dos valores de montante no documento, usando sinais contextuais presentes no documento, como símbolos de moeda e moradas."

Limitações

Os campos derivados são gerados por página. Isto significa que os exemplos de utilização que requerem informações de várias páginas não são totalmente suportados. Por exemplo, se configurar um campo derivado para resumir um documento, este gera um resumo separado para cada página individual, em vez de um resumo coerente para todo o documento. Esta limitação aplica-se a qualquer campo em que o valor tenha de ser derivado através de informações de várias páginas.

Deteção de assinaturas no extrator personalizado

O extrator personalizado da Document AI suporta a deteção de assinaturas em modelos de extratores personalizados pretrained-foundation-model-v1.4-2025-02-05 e pretrained-foundation-model-v1.5-2025-05-05. Pode ativar esta funcionalidade na IU da consola quando criar ou editar etiquetas no esquema do documento.

A deteção de assinaturas é uma funcionalidade que lhe permite determinar se existe uma assinatura nos seus documentos. Esta funcionalidade verifica a existência de uma assinatura através da análise de indicações visuais, em vez da extração de texto.

Como funciona a deteção de assinaturas

Para ativar esta funcionalidade, está disponível um tipo de dados signature quando define o esquema do processador. O comportamento do processador depende de ser detetada uma assinatura no documento.

Se for encontrada uma assinatura, o extrator devolve uma entidade de assinatura na respetiva resposta. Para um campo denominado has_signed, o objeto de resposta tem a seguinte estrutura:

"has_signed": {
  "mention_text": "Detected",
  "confidence": <confidence_score_between 0 to 1>,
  "normalized_value": {
    "text": "Detected",
    "signature_value": true
  }
}

Se não for encontrada uma assinatura, a entidade não é devolvida na resposta do processador.

Configure e defina os principais requisitos

Para configurar a deteção de assinaturas:

  1. Defina o esquema: no esquema do processador, adicione uma nova entidade para a assinatura que quer detetar.
  2. Defina o tipo de dados: selecione Assinatura como o tipo de dados para esta nova entidade.
  3. Defina o método como derivado: as entidades com o tipo de dados signature só podem usar o método Derived. Uma vez que o modelo infere a presença da assinatura visualmente, não extrai um valor de texto. Por conseguinte, os campos como textAnchor e pageAnchor não são preenchidos para entidades de assinatura.

Exemplo de utilização

Imagine que está a processar contratos e precisa de verificar se foram assinados. Pode criar um campo de esquema denominado is_contract_signed e definir o respetivo tipo de dados como signature. Quando processa um contrato assinado, a resposta inclui uma entidade is_contract_signed, que confirma a presença da assinatura. Se não estiver presente nenhuma assinatura, esta entidade está ausente da resposta. Isto permite-lhe sinalizar rapidamente documentos não assinados para revisão.

O que se segue?

Saiba como atualizar um processador especializado.