Lista de processadores

Esta página contém informações detalhadas sobre todos os processadores oferecidos pela Document AI. Confira uma lista de todos os processadores por tipo de solução.

Todos os processadores da Document AI aderem aos Termos de Segurança e Processamento de Dados.

Consulte a documentação Como gerenciar versões do processador para saber mais. Além disso, limites específicos do processador se aplicam além das cotas e dos limites gerais do produto.

Digitalizar texto

OCR de documentos empresariais (reconhecimento óptico de caracteres)

Descrição

Identifique e extraia texto em diferentes tipos de documentos.

Esse processador permite identificar e extrair texto, incluindo texto escrito à mão, de documentos em mais de 200 idiomas. O processador também usa o aprendizado de máquina para realizar uma avaliação de qualidade de um documento com base na legibilidade do conteúdo.

Categoria Digitalizar
Funções OCR, análise de qualidade
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Digitar na API OCR_PROCESSOR
Idiomas com suporte
Lista completa de idiomas
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Africâner af Latn
Albanês sq Latn
Árabe ar Arab
Armênio hy Armn
Bielorrusso be Cyrl
Bengali bn Beng
Bengalês bn Beng
Búlgaro bg Cyrl
Catalão ca Latn
Chinês zh Hani
Croata hr Latn
Tcheco cs Latn
Dinamarquês da Latn
Holandês nl Latn
Inglês en Latn
Estoniano et Latn
Filipino fil Latn
Finlandês fi Latn
Francês fr Latn
Alemão de Latn
Grego el Grek
Gujarati gu Gujr
Hebraico iw Hebr
Hindi hi Deva
Húngaro hu Latn
Islandês is Latn
Indonésio id Latn
Italiano it Latn
Japonês ja Jpan
Canarês kn Knda
Khmer km Khmr
Coreano ko Kore
Laosiano lo Laoo
Letão lv Latn
Lituano lt Latn
Macedônio mk Cyrl
Malaio ms Latn
Malaiala ml Mlym
Marati mr Deva
Nepalês ne Deva
Norueguês no Latn
Persa fa Arab
Polonês pl Latn
Português (Portugal e Brasil) pt Latn
Punjabi pa Guru
Romeno ro Latn
Russo ru Cyrl
Sérvio sr Cyrl
Eslovaco sk Latn
Esloveno sl Latn
Espanhol es Latn
Sueco sv Latn
Tagalo tl Latn
Tâmil ta Taml
Télugo te Telu
Tailandês th Thai
Turco tr Latn
Ucraniano uk Cyrl
Vietnamita vi Latn
Ídiche yi Hebr
Versões do processador
ID da versão Canal de lançamento Campos adicionais detectados Outros idiomas com suporte Descrição
pretrained-ocr-v1.0-2020-09-23 Estável

Nenhum

Nenhum

Não é recomendado para uso e será descontinuado nos Estados Unidos (EUA) e na União Europeia (UE) a partir de 30 de abril de 2025.
pretrained-ocr-v1.1-2022-09-12 Estável

Nenhum

Nenhum

Não é recomendado para uso e será descontinuado nos Estados Unidos (EUA) e na União Europeia (UE) a partir de 30 de abril de 2025.
pretrained-ocr-v1.2-2022-11-10 Estável

Nenhum

Nenhum

Versão do modelo congelada da v1.0: arquivos de modelo, configurações e binários de um snapshot da versão congelados em uma imagem de contêiner por até 18 meses.
pretrained-ocr-v2.0-2023-06-02 Estável

Nenhum

Nenhum

Modelo pronto para Production especializado em casos de uso de documentos. Inclui acesso a todos os complementos de OCR.
pretrained-ocr-v2.1-2024-08-07 Versão candidata a lançamento

Nenhum

Nenhum

As principais áreas de melhoria da v2.1 são: melhor reconhecimento de texto impresso, detecção de caixa de seleção mais precisa e ordem de leitura mais precisa.

Para mais informações, consulte Como gerenciar versões de processadores.

Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 15
Páginas máximas (solicitações em lote/off-line/assíncronas): 500
Treinamento
Human-in-the-Loop
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
Mais informações OCR de documentos corporativos

Extrair entidades dos documentos

Consulte Exemplos de conjuntos de dados para conferir exemplos de conjuntos de dados rotulados e não rotulados que podem ser usados no treinamento.

Extrator personalizado

Descrição

Extraia campos de documentos usando IA generativa ou modelos personalizados e ajuste os modelos para extrair dados com precisão dos documentos.

Categoria Extrair
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Digitar na API CUSTOM_EXTRACTION_PROCESSOR
Observações
  • Se você usar a IA generativa para extração, faça o seguinte:

    • Apenas o inglês tem suporte oficial.
    • A disponibilidade por região está disponível em US, EU, northamerica-northeast1 e asia-southeast1.

Idiomas com suporte
Lista completa de idiomas
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Africâner af Latn
Árabe ar Arab
Azerbaijano az Latn
Azerbaijão (cirílico) az-Cyrl Cyrl
Bielorrusso be Cyrl
Búlgaro bg Cyrl
Bósnio bs Latn
Catalão ca Latn
Cebuano ceb Latn
Tcheco cs Latn
Galês cy Latn
Dinamarquês da Latn
Alemão de Latn
Grego el Grek
Inglês en Latn
Esperanto eo Latn
Espanhol es Latn
Estoniano et Latn
Basco eu Latn
Persa fa Arab
Finlandês fi Latn
Filipino fil Latn
Francês fr Latn
Irlandês ga Latn
Galego gl Latn
Hindi hi Deva
Croata hr Latn
Crioulo haitiano ht Latn
Húngaro hu Latn
Indonésio id Latn
Islandês is Latn
Italiano it Latn
Hebraico iw Hebr
Japonês ja Jpan
Javanês jv Latn
Cazaque kk Cyrl
Coreano ko Kore
Quirguiz ky Cyrl
Latim la Latn
Lituano lt Latn
Letão lv Latn
Macedônio mk Cyrl
Mongol mn Cyrl
Marati mr Deva
Malaio ms Latn
Maltês mt Latn
Nepalês ne Deva
Holandês nl Latn
Norueguês no Latn
Polonês pl Latn
Pashto ps Arab
Português (Portugal e Brasil) pt Latn
Romeno ro Latn
Russo ru Cyrl
Russo (ortografia petrina) ru-PETR1708 Cyrl
Sânscrito sa Deva
Eslovaco sk Latn
Esloveno sl Latn
Albanês sq Latn
Sérvio sr Cyrl
Sueco sv Latn
Suaíli sw Latn
Tagalo tl Latn
Turco tr Latn
Ucraniano uk Cyrl
Urdu ur Arab
Usbeque uz Latn
Usbeque (cirílico) uz-Cyrl Cyrl
Vietnamita vi Latn
Ídiche yi Hebr
Chinês simplificado zh-Hans Hani
Chinês tradicional zh-Hant Hani
Zulu zu Latn
Versões do processador
ID da versão Canal de lançamento Campos adicionais detectados Outros idiomas com suporte Descrição
pretrained-foundation-model-v1.0-2023-08-22 Estável

Nenhum

Nenhum

Candidato pronto para Production especializado em casos de uso de documentos com modelos de visão e de fundação especializados.
pretrained-foundation-model-v1.1-2024-03-12 Candidato a lançamento

Nenhum

Nenhum

Versão candidata com o LLM Gemini 1.0 Pro e tecnologias recém-desenvolvidas, incluindo modelos de linguagem e visão especializados. Também inclui recursos avançados de OCR, como a detecção de caixas de seleção.
pretrained-foundation-model-v1.2-2024-05-10 Estável

Nenhum

Nenhum

Candidato pronto para Production com o LLM Gemini 1.5 Pro e tecnologias recém-desenvolvidas, incluindo modelos especializados de linguagem e visão. Também inclui recursos avançados de OCR, como a detecção de caixas de seleção. Recomendado para usuários que querem usar os maiores limites de token compatíveis ou experimentar modelos mais recentes.
pretrained-foundation-model-v1.3-2024-08-31 Estável

Nenhum

Nenhum

Candidato pronto para Production com o LLM do Gemini 1.5 Flash. Também inclui recursos avançados de OCR, como a detecção de caixas de seleção. Recomendado para quem quer a menor latência.

Para mais informações, consulte Como gerenciar versões de processadores.

Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 15
Páginas máximas (solicitações em lote/off-line/assíncronas): 200
Tipos de dados normalizados

Confira mais informações nas páginas Enriquecimento e normalização e Criar conjunto de dados.

Lista completa de tipos de dados normalizados
  • dateTime as STRING
  • currency as STRING
  • money as google.type.Money
  • number as FLOAT or INTEGER
Treinamento
Human-in-the-Loop
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
Mais informações Extrator personalizado

Analisador de formulários

Descrição

Extraia pares de chave-valor gerais (entidade e caixa de seleção), tabelas e entidades genéricas de documentos, além de textos com OCR.

Esse processador aplica tecnologias avançadas de machine learning para extrair pares de chave-valor, caixas de seleção e tabelas de documentos em mais de 200 idiomas. Esse processador também usa modelos de aprendizado profundo para extrair 11 entidades genéricas comuns em vários tipos de documentos.

Categoria Extrair
Funções OCR, análise de formulários, extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Digitar na API FORM_PARSER_PROCESSOR
Idiomas com suporte
Lista completa de idiomas
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Africâner af Latn
Albanês sq Latn
Árabe ar Arab
Bielorrusso be Cyrl
Catalão ca Latn
Chinês zh Hani
Croata hr Latn
Tcheco cs Latn
Dinamarquês da Latn
Holandês nl Latn
Inglês en Latn
Estoniano et Latn
Filipino fil Latn
Finlandês fi Latn
Francês fr Latn
Alemão de Latn
Hebraico iw Hebr
Hindi hi Deva
Húngaro hu Latn
Islandês is Latn
Indonésio id Latn
Italiano it Latn
Japonês ja Jpan
Coreano ko Kore
Letão lv Latn
Lituano lt Latn
Macedônio mk Cyrl
Malaio ms Latn
Marati mr Deva
Nepalês ne Deva
Norueguês no Latn
Persa fa Arab
Polonês pl Latn
Português (Portugal e Brasil) pt Latn
Romeno ro Latn
Russo ru Cyrl
Sérvio sr Cyrl
Eslovaco sk Latn
Esloveno sl Latn
Espanhol es Latn
Sueco sv Latn
Tagalo tl Latn
Turco tr Latn
Ucraniano uk Cyrl
Vietnamita vi Latn
Ídiche yi Hebr
Versões do processador
ID da versão Canal de lançamento Campos adicionais detectados Outros idiomas com suporte Descrição
pretrained-form-parser-v1.0-2020-09-23 Estável

Nenhum

Nenhum

Versão legada. Para ter a melhor qualidade e o conjunto completo de recursos, use o Parser de formulários v2.0.
pretrained-form-parser-v2.0-2022-11-10 Estável
Mostrar campos
  • email
  • phone
  • url
  • date_time
  • address
  • person
  • organization
  • quantity
  • price
  • id
  • page_number

Nenhum

Versão recomendada. Suporta entidades genéricas e inclui tabelas atualizadas, KVP e modelo de caixa de seleção, além de mais de 200 idiomas.
pretrained-form-parser-v2.1-2023-06-26 Candidato a lançamento

Nenhum

Nenhum

Versão de prévia pública. Mesmo modelo da v2.0 com a extração de texto nativo de arquivos PDF digitais ativada.

Para mais informações, consulte Como gerenciar versões de processadores.

Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 15
Páginas máximas (solicitações em lote/off-line/assíncronas): 100
Treinamento
Human-in-the-Loop
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
Mais informações Analisador de formulários

Analisador de layout

Descrição

Extrai elementos de conteúdo de documentos (texto, tabelas e listas) e cria blocos com reconhecimento de contexto.

O Layout Parser extrai elementos de conteúdo de documentos, como texto, tabelas e listas, e cria blocos com reconhecimento de contexto que facilitam a recuperação de informações em IA generativa e aplicativos de descoberta.

Categoria Extrair
Funções Análise de layout e divisão de documentos
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Digitar na API LAYOUT_PARSER_PROCESSOR
Observações
  • Esse analisador oferece suporte a arquivos PDF, HTML e DOCX.
Idiomas com suporte
Lista completa de idiomas
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Africâner af Latn
Albanês sq Latn
Árabe ar Arab
Armênio hy Armn
Bielorrusso be Cyrl
Bengali bn Beng
Bengalês bn Beng
Búlgaro bg Cyrl
Catalão ca Latn
Chinês zh Hani
Croata hr Latn
Tcheco cs Latn
Dinamarquês da Latn
Holandês nl Latn
Inglês en Latn
Estoniano et Latn
Filipino fil Latn
Finlandês fi Latn
Francês fr Latn
Alemão de Latn
Grego el Grek
Gujarati gu Gujr
Hebraico iw Hebr
Hindi hi Deva
Húngaro hu Latn
Islandês is Latn
Indonésio id Latn
Italiano it Latn
Japonês ja Jpan
Canarês kn Knda
Khmer km Khmr
Coreano ko Kore
Laosiano lo Laoo
Letão lv Latn
Lituano lt Latn
Macedônio mk Cyrl
Malaio ms Latn
Malaiala ml Mlym
Marati mr Deva
Nepalês ne Deva
Norueguês no Latn
Persa fa Arab
Polonês pl Latn
Português (Portugal e Brasil) pt Latn
Punjabi pa Guru
Romeno ro Latn
Russo ru Cyrl
Sérvio sr Cyrl
Eslovaco sk Latn
Esloveno sl Latn
Espanhol es Latn
Sueco sv Latn
Tagalo tl Latn
Tâmil ta Taml
Télugo te Telu
Tailandês th Thai
Turco tr Latn
Ucraniano uk Cyrl
Vietnamita vi Latn
Ídiche yi Hebr
Versões do processador
ID da versão Canal de lançamento Campos adicionais detectados Outros idiomas com suporte Descrição
pretrained-layout-parser-v1.0-2024-06-03 Estável

Nenhum

Nenhum

Versão recomendada.

Para mais informações, consulte Como gerenciar versões de processadores.

Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 15
Páginas máximas (solicitações em lote/off-line/assíncronas): 500
Treinamento
Human-in-the-Loop
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • eu
  • us
Mais informações Analisador de layout

Conheça os processadores pré-treinados

Analisador de extrato bancário

Descrição

Extração de extratos bancários, incluindo nome, conta, transações etc.

Categoria Pré-treinado
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Digitar na API BANK_STATEMENT_PROCESSOR
Observações
  • Se uma página de um arquivo de entrada com várias páginas for do tipo correto e uma das versões compatíveis, o processador vai realizar a extração de entidades no primeiro documento compatível. Se o processador não encontrar documentos aplicáveis no arquivo de entrada, ele vai retornar uma mensagem de erro.
Idiomas com suporte
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Inglês en Latn
Versões do processador
ID da versão Canal de lançamento Campos adicionais detectados Outros idiomas com suporte Descrição
pretrained-bankstatement-v1.0-2021-08-08 Estável

Nenhum

Nenhum

pretrained-bankstatement-v1.1-2021-08-13 Estável

Nenhum

Nenhum

pretrained-bankstatement-v2.0-2021-12-10 Estável

Nenhum

Nenhum

pretrained-bankstatement-v3.0-2022-05-16 Estável

Nenhum

Nenhum

Essa versão pressupõe que o arquivo de entrada contém um único extrato bancário. Ao contrário da versão padrão, essa versão não verifica o arquivo de entrada em busca de extratos bancários e não retorna um erro se nenhum extrato for encontrado.
pretrained-bankstatement-v4.0-2023-07-31 Candidato a lançamento

Nenhum

Nenhum

pretrained-bankstatement-v5.0-2023-12-06 Candidato a lançamento

Nenhum

Nenhum

Para mais informações, consulte Como gerenciar versões de processadores.

Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 15
Páginas máximas (solicitações em lote/off-line/assíncronas): 30
Campos detectados na versão mais antiga

Você também pode encontrar essas informações na página Campo detectado.

Lista completa de campos
  • account_number
  • account_type
  • bank_address
  • bank_name
  • client_address
  • client_name
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item
    • table_item/transaction_deposit
    • table_item/transaction_deposit_date
    • table_item/transaction_deposit_description
    • table_item/transaction_withdrawal
    • table_item/transaction_withdrawal_date
    • table_item/transaction_withdrawal_description
Campos enriquecidos

Confira mais informações na página Enriquecimento e normalização.

Lista completa de campos enriquecidos
  • bank_address
  • bank_name
Campos normalizados

Confira mais informações na página Enriquecimento e normalização.

Lista completa de campos normalizados
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item/transaction_deposit
  • table_item/transaction_deposit_date
  • table_item/transaction_withdrawal
  • table_item/transaction_withdrawal_date
Treinamento
Human-in-the-Loop
Instruções sobre rotulagem Abrir em uma nova janela.
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • eu
  • us

Analisador W2

Descrição

Extrações do Formulário W2, incluindo funcionário, empregador, salário etc.

Categoria Pré-treinado
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Digitar na API FORM_W2_PROCESSOR
Observações
  • Se uma página de um arquivo de entrada com várias páginas for do tipo correto e uma das versões compatíveis, o processador vai realizar a extração de entidades no primeiro documento compatível. Se o processador não encontrar documentos aplicáveis no arquivo de entrada, ele vai retornar uma mensagem de erro.
Idiomas com suporte
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Inglês en Latn
Formulário/versões compatíveis
  • 2020 (versões padrão e personalizadas)
  • 2019 (versões padrão e personalizadas)
  • 2018 (versões padrão e personalizadas)
Versões do processador
ID da versão Canal de lançamento Campos adicionais detectados Outros idiomas com suporte Descrição
pretrained-w2-v1.0-2020-10-01 Estável

Nenhum

Nenhum

pretrained-w2-v1.1-2022-01-27 Estável

Nenhum

Nenhum

pretrained-w2-v1.2-2022-01-28 Estável
Mostrar campos
  • AllocatedTips
  • ControlNumber
  • DependentCareBenefits
  • EIN
  • EmployeeAddress
  • EmployeeName
  • EmployerNameAndAddress
  • EmployerStateIdNumber_Line1
  • FederalIncomeTaxWithheld
  • FormYear
  • LocalIncomeTax_Line1
  • LocalityName_Line1
  • LocalWagesTipsEtc_Line1
  • MedicareTaxWithheld
  • MedicareWagesAndTips
  • NonqualifiedPlans
  • SocialSecurityTaxWithheld
  • SocialSecurityTips
  • SocialSecurityWages
  • SSN
  • State_Line1
  • StateIncomeTax_Line1
  • StateWagesTipsEtc_Line1
  • WagesTipsOtherCompensation

Nenhum

Melhorias na qualidade e suporte a novos campos; não inclui o divisor.

pretrained-w2-v2.0-2022-03-30 Candidato a lançamento
Mostrar campos
  • AllocatedTips
  • ControlNumber
  • DependentCareBenefits
  • EIN
  • EmployeeAddress_AdditionalStreetAddressOrPostalBox
  • EmployeeAddress_City
  • EmployeeAddress_State
  • EmployeeAddress_StreetAddressOrPostalBox
  • EmployeeAddress_Zip
  • EmployeeName_FirstName
  • EmployeeName_LastName
  • EmployeeName_MiddleNameOrInitial
  • EmployerAddress_AdditionalStreetAddressOrPostalBox
  • EmployerAddress_City
  • EmployerAddress_State
  • EmployerAddress_StreetAddressOrPostalBox
  • EmployerAddress_Zip
  • EmployerName
  • EmployerStateIdNumber_Line1
  • FederalIncomeTaxWithheld
  • FormYear
  • LocalIncomeTax_Line1
  • LocalWagesTipsEtc_Line1
  • LocalityName_Line1
  • MedicareTaxWithheld
  • MedicareWagesAndTips
  • NonqualifiedPlans
  • SSN
  • SocialSecurityTaxWithheld
  • SocialSecurityTips
  • SocialSecurityWages
  • StateIncomeTax_Line1
  • StateWagesTipsEtc_Line1
  • State_Line1
  • WagesTipsOtherCompensation
  • a_Code
  • a_Value
  • b_Code
  • b_Value
  • c_Code
  • c_Value
  • d_Code
  • d_Value

Nenhum

Melhorias na qualidade e suporte para os campos da caixa 12 e previsões detalhadas de EmployeeName, EmployeeAddress e EmployerNameAndAddress, que não fazem mais parte da saída e são substituídos por outros campos.

pretrained-w2-v2.1-2022-06-08 Estável
Mostrar campos
  • AllocatedTips
  • ControlNumber
  • DependentCareBenefits
  • EIN
  • EmployeeAddress_AdditionalStreetAddressOrPostalBox
  • EmployeeAddress_City
  • EmployeeAddress_State
  • EmployeeAddress_StreetAddressOrPostalBox
  • EmployeeAddress_Zip
  • EmployeeName_FirstName
  • EmployeeName_LastName
  • EmployeeName_MiddleNameOrInitial
  • EmployeeName_Suffix
  • EmployerAddress_AdditionalStreetAddressOrPostalBox
  • EmployerAddress_City
  • EmployerAddress_State
  • EmployerAddress_StreetAddressOrPostalBox
  • EmployerAddress_Zip
  • EmployerName
  • EmployerStateIdNumber_Line1
  • FederalIncomeTaxWithheld
  • FormYear
  • LocalIncomeTax_Line1
  • LocalWagesTipsEtc_Line1
  • LocalityName_Line1
  • MedicareTaxWithheld
  • MedicareWagesAndTips
  • NonqualifiedPlans
  • SSN
  • SocialSecurityTaxWithheld
  • SocialSecurityTips
  • SocialSecurityWages
  • StateIncomeTax_Line1
  • StateWagesTipsEtc_Line1
  • State_Line1
  • WagesTipsOtherCompensation
  • a_Code
  • a_Value
  • b_Code
  • b_Value
  • c_Code
  • c_Value
  • d_Code
  • d_Value

Nenhum

Semelhante à versão pretrained-w2-v2.0-2022-03-30, com mais melhorias de qualidade e a introdução de mais uma entidade EmployeeName_Suffix.

Para mais informações, consulte Como gerenciar versões de processadores.

Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 15
Páginas máximas (solicitações em lote/off-line/assíncronas): 15
Campos detectados na versão mais antiga

Você também pode encontrar essas informações na página Campo detectado.

Lista completa de campos
  • ControlNumber
  • EIN
  • EmployeeAddress
  • EmployeeName
  • EmployerNameAndAddress
  • FederalIncomeTaxWithheld
  • MedicareTaxWithheld
  • MedicareWagesAndTips
  • SSN
  • SocialSecurityTaxWithheld
  • SocialSecurityWages
  • WagesTipsOtherCompensation
Campos enriquecidos

Confira mais informações na página Enriquecimento e normalização.

Lista completa de campos enriquecidos
  • EmployerNameAndAddress
  • EIN
Treinamento
Human-in-the-Loop
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • eu
  • us

Analisador de passaportes dos EUA

Descrição

Extrair campos como nomes, IDs de documentos, data de nascimento etc.

Categoria Pré-treinado
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Digitar na API US_PASSPORT_PROCESSOR
Idiomas com suporte
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Inglês en Latn
Versões do processador
ID da versão Canal de lançamento Campos adicionais detectados Outros idiomas com suporte Descrição
pretrained-us-passport-v1.0-2021-06-14 Estável

Nenhum

Nenhum

Para mais informações, consulte Como gerenciar versões de processadores.

Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 2
Páginas máximas (solicitações em lote/off-line/assíncronas): 2
Campos detectados na versão mais antiga

Você também pode encontrar essas informações na página Campo detectado.

Lista completa de campos
  • Family Name
  • Given Names
  • Document Id
  • Expiration Date
  • Date Of Birth
  • Issue Date
  • MRZ Code
  • Portrait
Campos normalizados

Confira mais informações na página Enriquecimento e normalização.

Lista completa de campos normalizados
  • Date Of Birth
  • Expiration Date
  • Issue Date
Treinamento
Human-in-the-Loop
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • eu
  • us

Analisador de utilitário

Descrição

Extraia textos e valores de contas de serviços públicos, como nome do fornecedor e valor pago anterior.

Categoria Pré-treinado
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Limitado [*]
Digitar na API UTILITY_PROCESSOR
Idiomas com suporte
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Inglês en Latn
Versões do processador
ID da versão Canal de lançamento Campos adicionais detectados Outros idiomas com suporte Descrição
pretrained-utility-v1.1-2021-04-09 Estável

Nenhum

Nenhum

pretrained-utility-v1.2-2022-12-15 Candidato a lançamento

Nenhum

Nenhum

Para mais informações, consulte Como gerenciar versões de processadores.

Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 10
Páginas máximas (solicitações em lote/off-line/assíncronas): 200
Campos detectados na versão mais antiga

Você também pode encontrar essas informações na página Campo detectado.

Lista completa de campos
  • adjusted_amount
  • amount_due
  • balance_transfer_amount
  • carrier
  • currency
  • currency_exchange_rate
  • delivery_date
  • deposit_credited_amount
  • due_date
  • freight_amount
  • invoice_date
  • invoice_id
  • late_fee_amount
  • line_item
    • line_item/amount
    • line_item/description
    • line_item/frequency
    • line_item/product_code
    • line_item/purchase_order
    • line_item/quantity
    • line_item/service_address
    • line_item/service_end_date
    • line_item/service_id_1
    • line_item/service_id_2
    • line_item/service_start_date
    • line_item/supplier_account_number
    • line_item/tax_amount
    • line_item/unit_number
    • line_item/unit_of_measure
    • line_item/unit_price
    • line_item/usage
  • net_amount
  • payment_terms
  • prior_amount_due
  • prior_paid_amount
  • purchase_order
  • receiver_address
  • receiver_email
  • receiver_name
  • receiver_phone
  • receiver_tax_id
  • receiver_website
  • reclaimed_water
  • remit_to_address
  • remit_to_name
  • service
    • service/service_end_date
    • service/service_id
    • service/service_start_date
    • service/unit_of_measure
    • service/usage
  • service_address
  • service_end_date
  • service_id
  • service_start_date
  • ship_from_address
  • ship_from_name
  • ship_to_address
  • ship_to_name
  • supplier_account_number
  • supplier_address
  • supplier_email
  • supplier_iban
  • supplier_name
  • supplier_payment_ref
  • supplier_phone
  • supplier_registration
  • supplier_tax_id
  • supplier_website
  • tampering
  • total_amount
  • total_tax_amount
  • usage
  • vat
    • vat/amount
    • vat/category_code
    • vat/tax_amount
    • vat/tax_rate
Campos normalizados

Confira mais informações na página Enriquecimento e normalização.

Lista completa de campos normalizados
  • adjusted_amount
  • amount_due
  • balance_transfer_amount
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • invoice_date
  • late_fee_amount
  • line_item/amount
  • line_item/quantity
  • line_item/tax_amount
  • line_item/unit_price
  • net_amount
  • prior_amount_due
  • prior_paid_amount
  • total_amount
  • total_tax_amount
Treinamento
Human-in-the-Loop
Instruções sobre rotulagem Abrir em uma nova janela.
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • eu
  • us

Analisador de comprovação de documento de identidade

Descrição

Prever a validade de documentos de ID usando vários indicadores.

O processador de comprovação de documentos de identidade foi desenvolvido para ajudar a prever a validade de documentos ID com quatro indicadores diferentes.

No momento, o processador retorna informações dos seguintes indicadores:

  • Detecção de fraud_signals_is_identity_document: prevê se uma imagem contém um documento de identidade reconhecido.
  • Detecção de fraud_signals_suspicious_words: prevê se há palavras que não são típicas nos IDs.
  • Detecção de fraud_signals_image_manipulation: prevê se a imagem foi alterada ou adulterada com uma ferramenta de edição de imagens.
  • Detecção de fraud_signals_online_duplicate: prevê se a imagem pode ser encontrada on-line (somente nos EUA).

Categoria Pré-treinado
Funções OCR, análise de qualidade
Etapa de lançamento Visualizar
Status de acesso Pública
Digitar na API ID_PROOFING_PROCESSOR
Observações
  • No momento, o recurso de detecção de duplicatas on-line é processado em data centers dos EUA. O suporte regional e multirregional não está disponível para esse recurso fora dos EUA.
  • Esse processador tem suporte de algoritmos atualizados com mais frequência do que as novas versões do processador. Por esse motivo, o processador pode retornar saídas diferentes ao longo do tempo, mesmo usando a mesma versão. Por exemplo, o sistema de detecção de conteúdo duplicado on-line monitora imagens presentes na Web. O comportamento do sistema pode mudar mais rapidamente do que pode ser rastreado nas versões do processador.
  • Consulte as observações sobre IA responsável[†] e a revisão humana.[‡]
Idiomas com suporte
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Inglês en Latn
Formulário/versões compatíveis
  • Suporte para passaportes, cartões de identificação e carteiras de habilitação dos EUA.
Versões do processador
ID da versão Canal de lançamento Campos adicionais detectados Outros idiomas com suporte Descrição
pretrained-id-proofing-v1.0-2022-10-03 Estável

Nenhum

Nenhum

pretrained-id-proofing-v1.1-2023-05-18 Candidato a lançamento
Mostrar campos
  • fraud_signals_photocopy_detection

Nenhum

Sinal de detecção de fotocópia extra

pretrained-id-proofing-v1.2-2023-10-04 Candidato a lançamento
Mostrar campos
  • fraud_signals_photocopy_detection

Nenhum

Para mais informações, consulte Como gerenciar versões de processadores.

Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 2
Páginas máximas (solicitações em lote/off-line/assíncronas): 2
Campos detectados na versão mais antiga

Você também pode encontrar essas informações na página Campo detectado.

Lista completa de campos
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words
  • evidence_suspicious_word
  • evidence_inconclusive_suspicious_word
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_photocopy_detection
  • evidence_hostname (US only)
  • evidence_thumbnail_url (US only)
Campos normalizados

Confira mais informações na página Enriquecimento e normalização.

Lista completa de campos normalizados
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words
Treinamento
Human-in-the-Loop
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • eu
  • us

Analisador de holerite

Descrição

Extrações de recibos de pagamento, incluindo nome, empresa, valores etc.

Categoria Pré-treinado
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Digitar na API PAYSTUB_PROCESSOR
Observações
  • Se o documento de entrada com várias páginas tiver mais de um recibo de pagamento válido, o processador vai extrair entidades apenas do primeiro recibo de pagamento válido. Se nenhum recibo de pagamento for encontrado no arquivo de entrada, o processador vai retornar uma mensagem de erro.
Idiomas com suporte
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Inglês en Latn
Versões do processador
ID da versão Canal de lançamento Campos adicionais detectados Outros idiomas com suporte Descrição
pretrained-paystub-v1.0-2021-03-19 Estável

Nenhum

Nenhum

pretrained-paystub-v1.1-2021-08-13 Estável
Mostrar campos
  • net_pay
  • net_pay_ytd
  • employee_account_number

Nenhum

Melhoria na qualidade e suporte a novos campos;
pretrained-paystub-v1.2-2021-12-10 Estável

Nenhum

Nenhum

pretrained-paystub-v2.0-2022-05-17 Candidato a lançamento
Mostrar campos
  • deduction_item
  • deduction_item/deduction_type
  • deduction_item/deduction_this_period
  • deduction_item/deduction_ytd
  • direct_deposit_item
  • direct_deposit_item/direct_deposit
  • direct_deposit_item/employee_account_number
  • earning_item
  • earning_item/earning_type
  • earning_item/earning_rate
  • earning_item/earning_hours
  • earning_item/earning_this_period
  • earning_item/earning_ytd
  • page_number
  • tax_item
  • tax_item/tax_type
  • tax_item/tax_this_period
  • tax_item/tax_ytd
  • federal_additional_tax
  • federal_allowance
  • federal_marital_status
  • state_additional_tax
  • state_allowance
  • state_marital_status

Nenhum

Essa versão pressupõe que o arquivo de entrada contenha um único recibo de pagamento. Ao contrário da versão padrão, essa versão não verifica se há recibos de pagamento no arquivo de entrada e não retorna um erro se nenhum recibo for encontrado.

Melhoria na qualidade, suporte a novos campos e novo esquema. Bônus, comissões, feriados, horas extras, pagamento regular e férias agora fazem parte de earning_item/earning_this_period, e as versões do ano até o momento estão em earning_item/earning_ytd. O depósito direto e o número da conta do funcionário agora estão aninhados em direct_deposit_item.

O limite de páginas assíncronas é 10.

pretrained-paystub-v2.0-2022-07-22 Estável

Nenhum

Nenhum

Melhorias de qualidade e treinamentos.

pretrained-paystub-v3.0-2023-12-06 Candidato a lançamento

Nenhum

Nenhum

Para mais informações, consulte Como gerenciar versões de processadores.

Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 15
Páginas máximas (solicitações em lote/off-line/assíncronas): 50
Campos detectados na versão mais antiga

Você também pode encontrar essas informações na página Campo detectado.

Lista completa de campos
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • employee_account_number (Added in "pretrained-paystub-v1.1-2021-08-13")
  • employee_address
  • employee_name
  • employer_address
  • employer_name
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay (Added in "pretrained-paystub-v1.1-2021-08-13")
  • net_pay_ytd (Added in "pretrained-paystub-v1.1-2021-08-13")
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • ssn
  • start_date
  • vacation
  • vacation_ytd
Campos enriquecidos

Confira mais informações na página Enriquecimento e normalização.

Lista completa de campos enriquecidos
  • employer_address
  • employer_name
Campos normalizados

Confira mais informações na página Enriquecimento e normalização.

Lista completa de campos normalizados
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay
  • net_pay_ytd
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • start_date
  • vacation
  • vacation_ytd
Treinamento
Human-in-the-Loop
Instruções sobre rotulagem Abrir em uma nova janela.
Regiões com suporte
  • eu
  • us

Analisador de carteira de habilitação dos EUA

Descrição

Extrair campos como nomes, IDs de documentos, data de nascimento etc.

Categoria Pré-treinado
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Digitar na API US_DRIVER_LICENSE_PROCESSOR
Idiomas com suporte
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Inglês en Latn
Formulário/versões compatíveis
  • Suporte a todos os 50 estados e ao Distrito de Columbia
Versões do processador
ID da versão Canal de lançamento Campos adicionais detectados Outros idiomas com suporte Descrição
pretrained-us-driver-license-v1.0-2021-06-14 Estável

Nenhum

Nenhum

Para mais informações, consulte Como gerenciar versões de processadores.

Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 2
Páginas máximas (solicitações em lote/off-line/assíncronas): 2
Campos detectados na versão mais antiga

Você também pode encontrar essas informações na página Campo detectado.

Lista completa de campos
  • Family Name
  • Given Names
  • Document Id
  • Expiration Date
  • Date Of Birth
  • Issue Date
  • Address
  • Portrait
Campos normalizados

Confira mais informações na página Enriquecimento e normalização.

Lista completa de campos normalizados
  • Date Of Birth
  • Expiration Date
  • Issue Date
Treinamento
Human-in-the-Loop
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • eu
  • us

Analisador de despesas

Descrição

Extraia textos e valores de documentos de despesas, como data da despesa, nome do fornecedor, valor total e moeda.

Categoria Pré-treinado
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Digitar na API EXPENSE_PROCESSOR
Idiomas com suporte
Lista completa de idiomas
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Alemão de Latn
Inglês en Latn
Espanhol es Latn
Francês fr Latn
Japonês ja Jpan
Holandês nl Latn
Versões do processador
ID da versão Canal de lançamento Campos adicionais detectados Outros idiomas com suporte Descrição
pretrained-expense-v1.1-2021-04-09 Estável

Nenhum

Nenhum

Lançado em abril de 2021. A descontinuação está prevista para breve.
pretrained-expense-v1.2-2022-02-18 Estável

Nenhum

Nenhum

pretrained-expense-v1.3-2022-07-15 Estável
Mostrar campos
  • credit_card_last_four_digits
  • line_item/quantity
  • payment_type
  • ja: Japonês
Suporte para diários de hotéis e aluguéis de carros.
pretrained-expense-v1.3.2-2024-09-11 Candidato a lançamento
Mostrar campos
  • credit_card_last_four_digits
  • line_item/quantity
  • payment_type
  • ja: Japonês
Um upgrade para a v1.3 com um modelo de visão aprimorado.
pretrained-expense-v1.4-2022-11-18 Candidato a lançamento
Mostrar campos
  • traveler_name
  • reservation_id
  • line_item/transaction_date
  • ja: Japonês
  • it: Italiano
  • pt: Português (Portugal e Brasil)
Melhorias no desempenho e suporte para treinamento avançado. O limite máximo de páginas (solicitações on-line/síncronas) foi aumentado para 15.
pretrained-expense-v1.4.2-2024-09-12 Candidato a lançamento
Mostrar campos
  • traveler_name
  • reservation_id
  • line_item/transaction_date
  • ja: Japonês
  • it: Italiano
  • pt: Português (Portugal e Brasil)
Um upgrade para a v1.4 com um modelo de visão aprimorado.

Para mais informações, consulte Como gerenciar versões de processadores.

Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 10
Páginas máximas (solicitações em lote/off-line/assíncronas): 10
Campos detectados na versão mais antiga

Você também pode encontrar essas informações na página Campo detectado.

Lista completa de campos
  • credit_card_last_four_digits
  • currency
  • end_date
  • net_amount
  • payment_type
  • purchase_time
  • receipt_date
  • start_date
  • supplier_address
  • supplier_city
  • supplier_name
  • tip_amount
  • total_amount
  • total_tax_amount
  • line_item
    • line_item/amount
    • line_item/description
    • line_item/product_code
Campos enriquecidos

Confira mais informações na página Enriquecimento e normalização.

Lista completa de campos enriquecidos
  • supplier_address
  • supplier_name
  • supplier_phone
Campos normalizados

Confira mais informações na página Enriquecimento e normalização.

Lista completa de campos normalizados
  • currency
  • total_amount
  • total_tax_amount
  • net_amount
  • receipt_date
  • purchase_time
  • start_date
  • end_date
  • line_item/amount
  • line_item/payment_date
  • line_item/payment_amount
Treinamento
Human-in-the-Loop
Instruções sobre rotulagem Abrir em uma nova janela.
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • asia-southeast1
  • australia-southeast1
  • eu
  • northamerica-northeast1
  • us

Analisador de faturas

Descrição

Extrações de textos e valores de faturas, como número da fatura, nome do fornecedor, valor da fatura, valor fiscal, data da fatura e data de vencimento.

O Parser de faturas extrai campos de cabeçalho e de itens de linha, como número da fatura, nome do fornecedor, valor da fatura, valor do imposto, data da fatura, data de vencimento e valores dos itens de linha.

Categoria Pré-treinado
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Digitar na API INVOICE_PROCESSOR
Idiomas com suporte
Lista completa de idiomas
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Alemão de Latn
Inglês en Latn
Espanhol es Latn
Estoniano et Latn
Francês fr Latn
Italiano it Latn
Letão lv Latn
Lituano lt Latn
Holandês nl Latn
Português (Portugal e Brasil) pt Latn
Romeno ro Latn
Sueco sv Latn
Versões do processador
ID da versão Canal de lançamento Campos adicionais detectados Outros idiomas com suporte Descrição
pretrained-invoice-v1.1-2021-04-09 Estável

Nenhum

Nenhum

pretrained-invoice-v1.2-2022-02-18 Estável

Nenhum

Nenhum

A descontinuação está prevista para breve.
pretrained-invoice-v1.3-2022-07-15 Estável

Nenhum

  • it: Italiano
  • pt: Português (Portugal e Brasil)
  • ro: Romeno
  • sv: sueco
  • et: Estoniano
  • lv: letão
  • lt: Lituano
Versão do processador que pode ser atualizada. O número máximo de páginas (solicitações on-line/síncronas) foi aumentado para 15.
pretrained-invoice-v1.4-2022-10-21 Candidato a lançamento

Nenhum

Nenhum

Versão do processador que pode ser atualizada. O número máximo de páginas (solicitações on-line/síncronas) foi aumentado para 15.
pretrained-invoice-v1.5-2023-09-15 Candidato a lançamento

Nenhum

Nenhum

pretrained-invoice-v2.0-2023-12-06 Candidato a lançamento

Nenhum

Nenhum

Para mais informações, consulte Como gerenciar versões de processadores.

Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 15
Páginas máximas (solicitações em lote/off-line/assíncronas): 200
Campos detectados na versão mais antiga

Você também pode encontrar essas informações na página Campo detectado.

Lista completa de campos
  • amount_paid_since_last_invoice
  • carrier
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • invoice_id
  • line_item
    • line_item/amount
    • line_item/description
    • line_item/product_code
    • line_item/purchase_order
    • line_item/quantity
    • line_item/unit
    • line_item/unit_price
  • net_amount
  • payment_terms
  • purchase_order
  • receiver_address
  • receiver_email
  • receiver_name
  • receiver_phone
  • receiver_tax_id
  • receiver_website
  • remit_to_address
  • remit_to_name
  • ship_from_address
  • ship_from_name
  • ship_to_address
  • ship_to_name
  • supplier_address
  • supplier_email
  • supplier_iban
  • supplier_name
  • supplier_payment_ref
  • supplier_phone
  • supplier_registration
  • supplier_tax_id
  • supplier_website
  • total_amount
  • total_tax_amount
  • vat
    • vat/amount
    • vat/category_code
    • vat/tax_amount
    • vat/tax_rate
Campos enriquecidos

Confira mais informações na página Enriquecimento e normalização.

Lista completa de campos enriquecidos
  • supplier_address
  • supplier_name
  • supplier_phone
Campos normalizados

Confira mais informações na página Enriquecimento e normalização.

Lista completa de campos normalizados
  • amount_paid_since_last_invoice
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • net_amount
  • total_amount
  • total_tax_amount
  • line_item/amount
  • line_item/quantity
  • line_item/unit_price
  • vat/amount
  • vat/tax_amount
  • vat/tax_rate
Treinamento
Human-in-the-Loop
Instruções sobre rotulagem Abrir em uma nova janela.
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • northamerica-northeast1
  • us

Classificar documentos

Classificador personalizado

Descrição

Treine um modelo para classificar um tipo de documento de um conjunto de classes.

Categoria Classificar
Funções OCR, classificação
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Digitar na API CUSTOM_CLASSIFICATION_PROCESSOR
Idiomas com suporte
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Inglês en Latn
Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 15
Páginas máximas (solicitações em lote/off-line/assíncronas): 200
Treinamento
Human-in-the-Loop
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
Mais informações Criar um processador de classificação personalizado

Divisor personalizado

Descrição

Treine um modelo para dividir um arquivo com vários documentos em documentos individuais e classificados.

Categoria Classificar
Funções OCR, classificação, divisão
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Digitar na API CUSTOM_SPLITTING_PROCESSOR
Observações
  • A i18n só pode ser usada com opções de treinamento personalizado.
Idiomas com suporte
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Inglês en Latn
Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 15
Páginas máximas (solicitações em lote/off-line/assíncronas): 1000
Treinamento
Human-in-the-Loop
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
Mais informações Criar um processador de divisor personalizado

Resumir documentos

Summarizer

Descrição

Receba resumos e tópicos com pontos para documentos curtos e longos.

Categoria pré-treinado
Funções Resumir
Etapa de lançamento Visualizar
Status de acesso Pública
Digitar na API SUMMARY_PROCESSOR
Idiomas com suporte
Nome do idioma Tag BCP 47 Script Suporte para escrita à mão
Inglês en Latn
Versões do processador
ID da versão Canal de lançamento Campos adicionais detectados Outros idiomas com suporte Descrição
pretrained-foundation-model-v1.0-2023-08-22 Estável

Nenhum

Nenhum

Modelo de base do Google

Para mais informações, consulte Como gerenciar versões de processadores.

Cotas e limites
Páginas máximas (solicitações on-line/síncronas): 15
Páginas máximas (solicitações em lote/off-line/assíncronas): 250
Treinamento
Human-in-the-Loop
Exemplo de arquivo de entrada Abrir em uma nova janela.
Exemplo de saída Abrir em uma nova janela.
Regiões com suporte
  • us
Mais informações Resumo personalizado

Notas de rodapé

[*] Este processador está disponível apenas para clientes com acesso limitado.

Para solicitar acesso à API, preencha e envie o formulário de solicitação de cliente de acesso limitado do Document AI. Nesse formulário, são solicitadas informações sobre você, sua empresa e seu caso de uso. É necessário ter um ID de projeto do Google Cloud para acessar. Para criar um novo projeto do Google Cloud ou identificar o ID do seu projeto atual, siga estas instruções.

Depois que você enviar o formulário, a equipe do Document AI analisará sua solicitação para garantir que você atenda aos critérios de acesso. Caso seja aprovado, você receberá um e-mail com instruções de como acessar e usar esse recurso.

[†] A verificação de documentos de identidade extrai e avalia informações de documentos ID que contribuem para identificar se a imagem de entrada representa um ID autêntico.

No Google Cloud, priorizamos ajudar os clientes a desenvolver e implementar soluções de IA com segurança. O Identity Proofing foi desenvolvido de acordo com os princípios de IA do Google.

Baseado nos princípios de IA do Google e no design atual do produto, recomendamos que você tenha cautela e avalie cuidadosamente os possíveis benefícios e riscos de usar a comprovação de documentos de identidade para:

  • Tomada de decisões sem a human in the loop em previsões que podem afetar os direitos humanos.
  • Em domínios sensíveis, incluindo, entre outros, emprego, acesso a serviços públicos, saúde e contextos de segurança.

[‡] Sempre use a comprovação de identidade como parte do seu processo e fluxo de trabalho mais amplo de detecção de identidade. É importante ter um revisor humano no seu fluxo de trabalho para verificar se os indicadores previstos são precisos. O processador de comprovação de identidade não substitui a revisão humana de documentos em um fluxo de trabalho, mas ajuda os revisores humanos a validar documentos de ID. O processador de comprovação de identidade não deve ser usado como uma ferramenta de decisão automatizada para determinar se um ID é válido. Com a revisão humana, os clientes podem alcançar maior precisão no processamento de documentos e ajudar as empresas a avaliar as previsões usando ferramentas criadas especificamente para permitir essas revisões.

Analise a legislação da região em que você está implementando essa tecnologia e pesquise as orientações do setor para saber mais sobre diretrizes da política e problemas comuns de imparcialidade. Leia sobre a imparcialidade no machine learning, incluindo maneiras de reduzir o viés em conjuntos de dados de treinamento, avaliar se há disparidades no desempenho dos modelos personalizados e outras considerações ao usar o modelo personalizado.

Recomendamos que os clientes sigam as práticas recomendadas de imparcialidade, interpretabilidade, privacidade e segurança ao implementar a comprovação de identidade. Para saber mais sobre como implementar a IA responsável, leia as recomendações do Google para práticas de IA responsável.

Consulte a postagem do blog Automate identity document processing with Document AI] para mais informações sobre casos de uso e um exemplo de repositório de código de aplicativo.