bookmark_borderbookmark
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Esta página contém informações detalhadas sobre todos os processadores oferecidos pela Document AI. Confira uma lista de todos os processadores por tipo de solução.
OCR de documentos empresariais (reconhecimento óptico de caracteres)
Descrição
Identifique e extraia texto em diferentes tipos de documentos.
Esse processador permite identificar e extrair texto, incluindo texto escrito à mão, de documentos em mais de 200 idiomas. O processador também usa o aprendizado de máquina para realizar uma avaliação de qualidade de um documento com base na legibilidade do conteúdo.
Não é recomendado para uso e será descontinuado nos Estados Unidos (EUA) e na União Europeia (UE) a partir de 30 de abril de 2025.
pretrained-ocr-v1.1-2022-09-12
Estável
Nenhum
Nenhum
Não é recomendado para uso e será descontinuado nos Estados Unidos (EUA) e na União Europeia (UE) a partir de 30 de abril de 2025.
pretrained-ocr-v1.2-2022-11-10
Estável
Nenhum
Nenhum
Versão do modelo congelada da v1.0: arquivos de modelo, configurações e binários de um snapshot da versão congelados em uma imagem de contêiner por até 18 meses.
pretrained-ocr-v2.0-2023-06-02
Estável
Nenhum
Nenhum
Modelo pronto para produção especializado em casos de uso de documentos. Inclui acesso a todos os complementos de OCR.
pretrained-ocr-v2.1-2024-08-07
Estável
Nenhum
Nenhum
As principais áreas de melhoria da v2.1 são: melhor reconhecimento de texto impresso, detecção de caixa de seleção mais precisa e ordem de leitura mais precisa.
pretrained-ocr-v2.1.1-2025-01-31
Versão candidata a lançamento
Nenhum
Nenhum
A v2.1.1 é semelhante à v2.1 e está disponível em todas as regiões, exceto: US, EU e asia-southeast1.
Candidato pronto para produção especializado em casos de uso de documentos com modelos de visão e de fundação especializados.
pretrained-foundation-model-v1.1-2024-03-12
Candidato a lançamento
Nenhum
Nenhum
Versão candidata com o LLM Gemini 1.0 Pro e tecnologias recém-desenvolvidas, incluindo modelos de linguagem e visão especializados. Também inclui recursos avançados de OCR, como a detecção de caixas de seleção.
pretrained-foundation-model-v1.2-2024-05-10
Estável
Nenhum
Nenhum
Candidato pronto para produção com o LLM Gemini 1.5 Pro e tecnologias recém-desenvolvidas, incluindo modelos especializados de linguagem e visão. Também inclui recursos avançados de OCR, como a detecção de caixas de seleção. Recomendado para usuários que querem usar os maiores limites de token compatíveis ou experimentar modelos mais recentes.
pretrained-foundation-model-v1.3-2024-08-31
Estável
Nenhum
Nenhum
Candidato pronto para produção com o LLM do Gemini 1.5 Flash. Também inclui recursos avançados de OCR, como a detecção de caixas de seleção. Recomendado para quem quer a menor latência.
pretrained-foundation-model-v1.4-2025-02-05
Candidato a lançamento
Nenhum
Nenhum
Candidato pronto para produção com o LLM Flash Gemini 2.0. Candidato pronto para produção com o LLM Flash Gemini 2.0. Também inclui recursos avançados de OCR, como a detecção de caixas de seleção. Recomendado para quem quer experimentar modelos mais recentes.
Extraia pares de chave-valor gerais (entidade e caixa de seleção), tabelas e entidades genéricas de documentos, além de textos com OCR.
Esse processador aplica tecnologias avançadas de machine learning para extrair pares de chave-valor, caixas de seleção e tabelas de documentos em mais de 200 idiomas. Esse processador também usa modelos de aprendizado profundo para extrair 11 entidades genéricas comuns em vários tipos de documentos.
Categoria
Extrair
Funções
OCR, análise de formulários, extração de entidades
Extrai elementos de conteúdo do documento (texto, tabelas e listas) e cria blocos com reconhecimento de contexto.
O Layout Parser extrai elementos de conteúdo de documentos, como texto, tabelas e listas, e cria blocos com reconhecimento de contexto que facilitam a recuperação de informações em IA generativa e aplicativos de descoberta.
Se uma página de um arquivo de entrada com várias páginas for do tipo correto e uma das versões compatíveis, o processador vai realizar a extração de entidades no primeiro documento compatível. Se o processador não encontrar nenhum documento aplicável no arquivo de entrada, ele vai retornar uma mensagem de erro.
Idiomas com suporte
Nome do idioma
Tag BCP 47
Script
Suporte para escrita à mão
Inglês
en
Latn
Versões do processador
ID da versão
Canal de lançamento
Campos adicionais detectados
Outros idiomas com suporte
Descrição
pretrained-bankstatement-v1.0-2021-08-08
Estável
Nenhum
Nenhum
pretrained-bankstatement-v1.1-2021-08-13
Estável
Nenhum
Nenhum
pretrained-bankstatement-v2.0-2021-12-10
Estável
Nenhum
Nenhum
pretrained-bankstatement-v3.0-2022-05-16
Estável
Nenhum
Nenhum
Essa versão pressupõe que o arquivo de entrada contém um único extrato bancário. Ao contrário da versão padrão, essa versão não verifica o arquivo de entrada para extratos bancários e não retorna um erro se nenhum extrato bancário for encontrado.
Se uma página de um arquivo de entrada com várias páginas for do tipo correto e uma das versões compatíveis, o processador vai realizar a extração de entidades no primeiro documento compatível. Se o processador não encontrar nenhum documento aplicável no arquivo de entrada, ele vai retornar uma mensagem de erro.
Melhorias na qualidade e suporte para os campos da caixa 12 e previsões detalhadas de EmployeeName, EmployeeAddress e EmployerNameAndAddress, que não fazem mais parte da saída e são substituídos por outros campos.
Analisador de comprovação de documento de identidade
Descrição
Prever a validade de documentos de identificação usando vários indicadores.
O processador de comprovação de documentos de identidade foi desenvolvido para ajudar a prever a validade de documentos de identificação com quatro indicadores diferentes.
No momento, o processador retorna informações dos seguintes indicadores:
Detecção de fraud_signals_is_identity_document: prevê se uma imagem contém um documento de identidade reconhecido.
Detecção de fraud_signals_suspicious_words: prevê se há palavras presentes que não são típicas nos IDs.
Detecção de fraud_signals_image_manipulation: prevê se a imagem foi alterada ou adulterada com uma ferramenta de edição de imagens.
Detecção de fraud_signals_online_duplicate: prevê se a imagem pode ser encontrada on-line (somente nos EUA).
No momento, o recurso de detecção de duplicatas on-line é processado em data centers dos EUA. O suporte regional e multirregional não está disponível para esse recurso fora dos EUA.
Esse processador tem suporte de algoritmos que são atualizados com mais frequência do que as novas versões do processador são lançadas. Por esse motivo, o processador pode retornar saídas diferentes ao longo do tempo, mesmo usando a mesma versão. Por exemplo, o sistema de detecção de conteúdo duplicado on-line monitora imagens presentes na Web. O comportamento do sistema pode mudar mais rapidamente do que pode ser rastreado nas versões do processador.
Consulte as observações sobre IA responsável[†] e a revisão humana.[‡]
Idiomas com suporte
Nome do idioma
Tag BCP 47
Script
Suporte para escrita à mão
Inglês
en
Latn
Formulário/versões compatíveis
Suporte para passaportes, cartões de identificação e carteiras de habilitação dos EUA.
Se o documento de entrada com várias páginas tiver mais de um recibo de pagamento válido, o processador vai extrair entidades apenas do primeiro recibo de pagamento válido. Se nenhum recibo de pagamento for encontrado no arquivo de entrada, o processador vai retornar uma mensagem de erro.
Essa versão pressupõe que o arquivo de entrada contenha um único recibo de pagamento. Ao contrário da versão padrão, essa versão não verifica se há recibos de pagamento no arquivo de entrada e não retorna um erro se nenhum recibo for encontrado.
Melhoria na qualidade, suporte a novos campos e novo esquema. Bônus, comissões, feriados, horas extras, pagamento regular e férias agora fazem parte de earning_item/earning_this_period, e as versões do ano até o momento estão em earning_item/earning_ytd. O depósito direto e o número da conta do funcionário agora estão aninhados em direct_deposit_item.
Extrações de textos e valores de faturas, como número da fatura, nome do fornecedor, valor da fatura, valor fiscal, data da fatura e data de vencimento.
O Parser de faturas extrai campos de cabeçalho e de itens de linha, como número da fatura, nome do fornecedor, valor da fatura, valor do imposto, data da fatura, data de vencimento e valores dos itens de linha.
[*] Este processador está disponível apenas para clientes com acesso limitado.
Para solicitar acesso à API, preencha e envie o
formulário de solicitação de cliente de acesso limitado do Document AI.
Nesse formulário, são solicitadas informações sobre você, sua empresa e seu caso de uso.
É necessário ter um ID de projeto do Google Cloud para acessar.
Para criar um novo projeto do Google Cloud ou identificar o ID do seu projeto
atual, siga estas instruções.
Depois que você enviar o formulário, a equipe do Document AI
analisará sua solicitação para garantir que você atenda aos critérios de acesso.
Caso seja aprovado, você receberá um e-mail com instruções de como acessar
e usar esse recurso.
[†]
A verificação de documentos de identidade extrai e avalia informações de documentos de identificação que contribuem para identificar se a imagem de entrada representa um documento de identificação autêntico.
Na Google Cloud, priorizamos ajudar os clientes a desenvolver e implementar soluções de IA com segurança. O Identity Proofing foi desenvolvido de acordo com os princípios de IA do Google.
Baseado nos princípios de IA do Google e no design atual do produto, recomendamos que você tenha cuidado e avalie cuidadosamente os possíveis benefícios e riscos de usar a comprovação de documentos de identidade para:
Tomada de decisões sem a participação humana em previsões que podem afetar os direitos humanos.
Em domínios sensíveis, incluindo, entre outros, emprego, acesso a serviços públicos, saúde e contextos de segurança.
[‡] Sempre use a comprovação de identidade como parte do seu processo e fluxo de trabalho mais amplo de detecção de identidade.
É importante ter um revisor humano no seu fluxo de trabalho para verificar se os indicadores previstos são precisos. O processador de comprovação de identidade não substitui a revisão humana de documentos em um fluxo de trabalho, mas ajuda os revisores humanos a validar documentos de identificação. O processador de comprovação de identidade não deve ser usado como uma ferramenta de decisão automatizada para determinar se um documento de identificação é válido. Com a revisão humana, os clientes podem alcançar maior precisão no processamento de documentos e ajudar as empresas a avaliar as previsões usando ferramentas criadas especificamente para permitir essas revisões.
Analise a legislação da região em que você está implementando essa tecnologia e pesquise as orientações do setor para saber mais sobre diretrizes da política e problemas comuns de imparcialidade. Leia sobre a imparcialidade no machine learning, incluindo maneiras de reduzir o viés em conjuntos de dados de treinamento, avaliar se há disparidades no desempenho dos modelos personalizados e outras considerações ao usar o modelo personalizado.
Recomendamos que os clientes sigam as práticas recomendadas de imparcialidade, interpretabilidade, privacidade e segurança ao implementar a comprovação de identidade. Para saber mais sobre como implementar a IA responsável, leia as recomendações do Google para práticas de IA responsável.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-02-20 UTC."],[],[]]