Mecanismos de extrator personalizados
Pode criar extratores personalizados especificamente adequados aos seus documentos, e preparados e avaliados com os seus dados. Este processador identifica e extrai entidades dos seus documentos. Em seguida, pode usar este processador preparado em documentos adicionais.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. Na Google Cloud consola, na secção Document AI, aceda à página Workbench.
Para o extrator personalizado, selecione
Criar processador .No menu Criar processador, introduza um nome para o processador, como
my-custom-document-extractor
.Selecione a região mais próxima de si.
Opcional: abra as Opções avançadas.
Tem a opção de permitir que a Google crie um contentor do Cloud Storage para si ou pode criar o seu próprio. Para este tutorial, selecione Armazenamento gerido pela Google.
Também tem a opção de usar chaves de encriptação geridas pela Google ou chaves de encriptação geridas pelo cliente (CMEK). Para este tutorial, selecione Google-managed encryption key.
Selecione Criar para criar o processador.
Selecione o separador
Começar . É apresentado o menu campos.Selecione Criar novo campo.
Introduza o nome do campo. Selecione o Tipo de dados e a Ocorrência. Atribua à etiqueta uma descrição descritiva e distinta. A descrição da propriedade permite-lhe fornecer contexto, estatísticas e conhecimentos prévios adicionais para cada entidade, de modo a melhorar a precisão e o desempenho da extração.
- Selecione Criar. Consulte o artigo Defina o esquema do processador para ver instruções detalhadas sobre como criar e editar um esquema.
Crie cada uma das seguintes etiquetas para o esquema do processador.
Nome Tipo de dados Ocorrência control_number
Número Múltiplo opcional employees_social_security_number
Número Obrigatório múltiplo employer_identification_number
Número Obrigatório múltiplo employers_name_address_and_zip_code
Endereço Obrigatório múltiplo federal_income_tax_withheld
Dinheiro Obrigatório múltiplo social_security_tax_withheld
Dinheiro Obrigatório múltiplo social_security_wages
Dinheiro Obrigatório múltiplo wages_tips_other_compensation
Dinheiro Obrigatório múltiplo Também pode criar e usar outros tipos de etiquetas no seu esquema do processador, como caixas de verificação e entidades tabulares. Por exemplo, os formulários W-2 contêm caixas de verificação funcionário estatutário, plano de reforma e subsídio de doença de terceiros que também pode adicionar ao esquema.
Selecione Carregar documento de amostra.
Na barra lateral, selecione Importar documentos do Cloud Storage.
Para este exemplo, introduza este nome do contentor em
Caminho de origem . Este link direciona diretamente para um documento.cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
Selecione Importar.
Quando estiver na consola de etiquetagem, repare que muitas das etiquetas já estão preenchidas. Isto deve-se ao facto de o tipo de modelo de extrator personalizado predefinido ser um modelo de base, que pode fazer previsões sem exemplos, ou seja, sem preparação.
Para usar as etiquetas sugeridas, passe o ponteiro do rato sobre cada
etiqueta no painel lateral e selecione a marca de verificação para confirmar que a etiqueta está correta. Não edite o texto, mesmo que o OCR leia o texto incorretamente.Neste exemplo, os valores na parte inferior do documento não foram identificados automaticamente, pelo que tem de os etiquetar manualmente.
Use os ícones na barra de ferramentas acima do documento para etiquetar. Use a ferramenta
caixa delimitadora por predefinição ou a ferramentaSelecionar texto para valores de várias linhas, para selecionar o conteúdo e aplicar a etiqueta.Depois de selecionar o texto, é apresentado um menu pendente com todos os campos definidos (entidades) para selecionar um. Neste exemplo, o valor de
wages_tips_other_compensation
é selecionado com a ferramenta de caixa delimitadora e essa etiqueta é aplicada.Reveja os valores de texto detetados para garantir que refletem a localização correta do texto para cada campo. O documento W2 etiquetado deve ter o seguinte aspeto quando estiver concluído:
Se necessário, pode selecionar
Criar novo campo para adicionar um novo campo ao esquema a partir desta página.Selecione
Marcar como etiquetado quando terminar de anotar o documento. É feito o redirecionamento para o separador Começar.Selecione o separador
Criar .Em Chamar modelo base, selecione Criar nova versão.
Introduza um nome para a versão do processador, como
w2-foundation-model
.Selecione Criar versão. Demora alguns minutos a criar.
Opcional: selecione o separador
Implementar e usar . Nesta página, pode ver as versões do processador disponíveis e o estado de implementação da nova versão.Aceda à página
Compilar .Selecione
Importar documentos .Na barra lateral, selecione Importar documentos do Google Cloud Storage.
Introduza o nome do contentor que contém os seus documentos.
Na lista Divisão de dados, selecione Divisão automática. Isto divide automaticamente os documentos para ter 80% no conjunto de preparação e 20% no conjunto de testes.
Na secção Etiquetagem automática, selecione a caixa de verificação
Importar com etiquetagem automática .Selecione a versão do processador do modelo base para etiquetar os documentos.
Selecione Importar e aguarde que os documentos sejam importados. Pode sair desta página e voltar mais tarde.
Tem de validar os documentos etiquetados automaticamente antes de os poder usar para preparação ou testes. Selecione
Iniciar etiquetagem para ver os documentos etiquetados automaticamente.Para usar as etiquetas sugeridas, passe o ponteiro sobre cada
anotação e selecione a marca de verificação para confirmar que a etiqueta está correta. Para fins de formação, não edite os valores se não corresponderem ao texto do documento. Só altere a caixa delimitadora se tiver sido selecionado o texto errado.Selecione
Marcar como etiquetado quando terminar de anotar o documento.Repita o processo para cada documento etiquetado automaticamente.
Aceda à página
Compilar .Selecione
Importar documentos .Na barra lateral, selecione Importar documentos do Cloud Storage.
Introduza o caminho em Caminho de origem que contém os seus documentos. Este contentor deve conter documentos pré-etiquetados no formato JSON de documentos.
Na lista Divisão de dados, selecione Divisão automática. Isto divide automaticamente os documentos para ter 80% no conjunto de preparação e 20% no conjunto de testes. Deixe a opção Importar com etiquetagem automática desmarcada.
Selecione Importar. A importação demora vários minutos.
- Na página Criar, pode aceder à consola
Gerir conjunto de dados para ver e editar todos os documentos e etiquetas no conjunto de dados. Para obter informações sobre os requisitos do conjunto de dados, em Forme um modelo personalizado, selecione Criar nova versão ou Ver requisitos completos. Este não é um modelo de IA generativa. São necessárias, pelo menos, 10 instâncias de preparação e 10 instâncias de teste de cada campo para um processador baseado num modelo personalizado.
No campo Nome da versão, introduza um nome para esta versão do processador, como
w2-custom-model
.Opcional: selecione Ver estatísticas das etiquetas para encontrar informações sobre as etiquetas dos documentos. Isto pode ajudar a determinar a sua cobertura. Selecione Fechar para voltar à configuração de preparação.
Em Método de preparação do modelo, selecione Com base no modelo.
Selecione Iniciar treino. A preparação demora algumas horas. Pode fechar esta página e voltar mais tarde.
Opcional: selecione o separador
Implementar e usar . Nesta página, pode ver as versões do processador disponíveis e o estado de formação da nova versão.Após a conclusão da preparação, selecione o separador
Implementar e usar .Selecione a caixa de verificação à esquerda da versão que quer implementar e selecione Implementar.
Selecione Implementar na janela de diálogo. A implementação demora alguns minutos.
Quando a versão é implementada, pode defini-la como a
versão predefinida ou pode fornecer o ID da versão quando processa documentos com a API.Selecione o separador
Avaliar para testar a versão do processador. Nesta página, pode ver as métricas de avaliação, incluindo a pontuação F1, a precisão e a revocação para o documento completo e as etiquetas individuais. Para mais informações sobre a avaliação e as estatísticas, consulte o artigo Avalie o processador.Selecione o seletor
Versão e selecione a versão que usa o modelo base.Transferir um documento que não tenha sido usado em testes ou formação anteriores para que o possa usar para avaliar a versão do processador. Se usar os seus próprios dados, usaria um documento reservado para este fim.
Selecione
Carregar documento de teste e selecione o documento que acabou de transferir. É apresentada a página Análise do extrator de documentos personalizado. O resultado no ecrã demonstra a qualidade da extração do documento.Teste novamente o documento com a versão que tem um modelo personalizado preparado.
- Siga os exemplos de código em envie um pedido de processamento
para usar o processamento online ou em lote.
- Consulte Quotas e limites para saber o número de páginas suportadas para processamento online e em lote.
- Siga o exemplo de código do extrator personalizado em Tratar a resposta de processamento para obter as entidades extraídas do processador.
No Google Cloud menu de navegação da consola, selecione Document AI e, de seguida, Os meus processadores.
Selecione
Mais ações na mesma linha do processador que quer eliminar.Selecione Eliminar processador, introduza o nome do processador e, de seguida, selecione Eliminar novamente para confirmar.
Crie um processador
Defina campos do processador
Encontra-se agora na página Vista geral do processador do processador que acabou de criar.

Pode especificar os campos que quer que o processador extraia e começar a etiquetar documentos.

Carregue um documento de exemplo
Teste com um documento de amostra.
É feito o redirecionamento para a consola de etiquetagem.
Etiquete um documento
O processo de selecionar texto num documento e aplicar etiquetas é conhecido como anotação ou etiquetagem.
Crie a versão do processador com o modelo base
Depois de etiquetar um único documento, pode criar uma versão do processador com o modelo base pré-preparado para extrair entidades.
Use a IA generativa para etiquetar documentos automaticamente
O modelo base pode extrair campos com precisão para uma variedade de tipos de documentos, mas também pode fornecer dados de preparação adicionais para melhorar a precisão do modelo para estruturas de documentos específicas.
O extrator personalizado usa os nomes das etiquetas que define e as anotações anteriores para tornar a etiquetagem de documentos em grande escala mais rápida e fácil com a etiquetagem automática.
Importe documentos de preparação pré-etiquetados
Opcional: veja e faça a gestão do conjunto de dados
Prepare um processador baseado em modelos personalizados
A preparação pode demorar várias horas. Certifique-se de que configurou o processador com os dados e as etiquetas adequados antes de iniciar a preparação.
Implemente a versão do processador
Avalie e teste o processador
Use o processador
Criou e preparou com êxito um processador de extrator personalizado.
Pode gerir as versões do processador com preparação personalizada tal como qualquer outra versão do processador. Para mais informações, consulte o artigo Gerir versões do processador.
Para usar a API Document AI:
Limpar
Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.
Para evitar custos Google Cloud desnecessários, use o Google Cloud console para eliminar o processador e o projeto se não precisar deles.
Se criou um novo projeto para saber mais sobre o Document AI e já não precisar do projeto, elimine-o.
Se usou um Google Cloud projeto existente, elimine os recursos que criou para evitar incorrer em cobranças na sua conta:
O que se segue?
Para obter detalhes, consulte o artigo Guias.