Mecanismos de extração personalizados

Você pode criar extratores personalizados que são especificamente adequados para seus documentos, além de serem treinados e avaliados com seus dados. Esse processador identifica e extrai entidades dos seus documentos. Você pode usar o processador treinado em outros documentos.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

Criar um processador

  1. No console do Google Cloud, na seção do Document AI, acesse a página Workbench.

    Workbench

  2. Para o extrator personalizado, selecione Criar processador.

    updated-cde-2.0-path-to-docai-1

  3. No menu Criar processador, insira um nome para o processador, como my-custom-document-extractor.

    updated-cde-2.0-path-to-docai-2

  4. Selecione a região mais próxima de você.

  5. Opcional: abra as Opções avançadas.

  6. Selecione Criar para criar o processador.

Definir os campos do processador

Agora você está na página Visão geral do processador do processador que você criou.

updated-cde-2.0-path-to-docai-3

Você pode especificar os campos que quer que o processador extraia e comece a rotular os documentos.

  1. Selecione a guia Começar. O menu Campos será exibido.

  2. Selecione Criar novo campo.

  3. Digite o nome do campo. Selecione o Tipo de dados e a Ocorrência. Dê ao rótulo uma descrição detalhada e distinta. A descrição da propriedade permite fornecer mais contexto, insights e conhecimento prévio para cada entidade para melhorar a acurácia e o desempenho da extração.

updated-cde-2.0-path-to-docai-9
  1. Selecione Criar. Consulte Definir esquema de processador para instruções detalhadas sobre como criar e editar um esquema.
  1. Crie cada um dos rótulos a seguir para o esquema do processador.

    Nome Tipo de dados Ocorrência
    control_number Número Opcional várias vezes
    employees_social_security_number Número Obrigatória várias vezes
    employer_identification_number Número Obrigatória várias vezes
    employers_name_address_and_zip_code Endereço Obrigatória várias vezes
    federal_income_tax_withheld Dinheiro Obrigatória várias vezes
    social_security_tax_withheld Dinheiro Obrigatória várias vezes
    social_security_wages Dinheiro Obrigatória várias vezes
    wages_tips_other_compensation Dinheiro Obrigatória várias vezes

    Também é possível criar e usar outros tipos de rótulos no esquema do processador, como caixas de seleção e entidades tabulares. Por exemplo, os formulários W-2 contêm caixas de seleção de Funcionário estatutário, plano de aposentadoria e pagamento de doença de terceiros que também podem ser adicionadas ao esquema.

    updated-cde-2.0-path-to-docai-4

Fazer upload de um documento de amostra

Teste com um documento de exemplo.

  1. Selecione Fazer upload do documento de exemplo.

  2. Na barra lateral, clique em Importar documentos do Cloud Storage.

  3. Para este exemplo, digite o nome do bucket em Caminho de origem Este link direciona para um documento.

    cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
    
  4. Selecione Importar.

O console de rotulagem será aberto.

Rotular um documento

O processo de selecionar texto em um documento e aplicar rótulos é conhecido como anotação ou rotulação.

  1. No console de rotulagem, observe que muitos dos rótulos já estão preenchidos. Isso ocorre porque o tipo de modelo do extrator personalizado padrão é um modelo de fundação que pode realizar previsões zero-shot, ou seja, sem treinamento.

    updated-cde-2.0-path-to-docai-5

  2. Para usar os rótulos sugeridos, mantenha o ponteiro do mouse sobre cada rótulo no painel lateral e selecione a marca de seleção para confirmar se o rótulo está correto. Não edite o texto, mesmo que o OCR leia o texto incorretamente.

  3. Neste exemplo, os valores na parte inferior do documento não foram identificados automaticamente, portanto, você precisa rotulá-los manualmente.

  4. Use os ícones na barra de ferramentas acima do documento para rotular. Use a ferramenta caixa delimitadora por padrão ou a ferramenta Selecionar texto para valores de várias linhas e para aplicar o rótulo.

  5. Depois que o texto for selecionado, um menu suspenso será exibido com todos os campos definidos (entidades) para você selecionar um. Neste exemplo, o valor de wages_tips_other_compensation foi selecionado com a ferramenta caixa delimitadora, e esse rótulo é aplicado.

    updated-cde-2.0-path-to-docai-6

  6. Revise os valores de texto detectados para garantir que eles reflitam o local correto do texto para cada campo. O documento W2 rotulado deve ficar assim quando concluído:

    updated-cde-2.0-path-to-docai-7

  7. Se necessário, selecione Criar novo campo para adicionar um novo campo ao esquema nessa página.

  8. Selecione Marcar como rotulado quando terminar de anotar o documento. A guia Primeiros passos será aberta.

Criar a versão do processador usando o modelo básico

Depois de rotular um único documento, é possível criar uma versão do processador usando o modelo de fundação pré-treinado para extrair entidades.

  1. Selecione a guia Criar.

    updated-cde-2.0-path-to-docai-8

  2. Em Modelo de fundação da chamada, clique em Criar nova versão.

  3. Digite um nome para a versão do processador, como w2-foundation-model.

  4. Selecione Criar versão. A criação leva alguns minutos.

  5. Opcional: clique na guia Implantar e usar. Nesta página, confira as versões disponíveis do processador e o status da implantação da nova versão.

Usar IA generativa para identificar documentos automaticamente

O modelo de fundação extrai campos com precisão para diversos tipos de documentos, mas também é possível fornecer mais dados de treinamento para melhorar a acurácia do modelo em estruturas de documentos específicas.

O extrator personalizado usa os nomes de rótulo que você define e anotações anteriores para tornar mais rápido e fácil rotular documentos em escala com rotulagem automática.

  1. Acesse a página Build.

  2. Clique em Importar documentos.

  3. Na barra lateral, clique em Importar documentos do Google Cloud Storage.

  4. Digite o nome do bucket que contém seus documentos.

  5. Na lista Divisão de dados, selecione Dividir automaticamente. Isso divide automaticamente os documentos para que tenham 80% no conjunto de treinamento e 20% no conjunto de teste.

  6. Na seção rotulação automática, marque a caixa de seleção Importar com a rotulagem automática.

  7. Selecione a versão do processador do modelo de base para rotular os documentos.

  8. Clique em Importar e aguarde os documentos. Você pode sair desta página e continuar mais tarde.

  9. É necessário verificar os documentos rotulados automaticamente antes de usá-los para treinamento ou teste. Selecione Iniciar rotulagem para ver os documentos rotulados automaticamente.

  10. Para usar os rótulos sugeridos, mantenha o ponteiro sobre cada anotação e clique na marca de seleção para confirmar se o marcador está correto. Para fins de treinamento, não edite os valores se eles não corresponderem ao texto do documento. Só mude a caixa delimitadora se o texto errado for selecionado.

  11. Selecione Marcar como rotulado quando terminar de anotar o documento.

  12. Repita essas etapas para cada documento identificado automaticamente.

Importar documentos de treinamento pré-rotulados

  1. Acesse a página Build.

  2. Clique em Importar documentos.

  3. Na barra lateral, clique em Importar documentos do Cloud Storage.

  4. Digite o caminho em Caminho de origem que contém seus documentos. Esse bucket precisa conter documentos pré-rotulados no formato Document JSON.

  5. Na lista Divisão de dados, selecione Dividir automaticamente. Isso divide automaticamente os documentos para que tenham 80% no conjunto de treinamento e 20% no conjunto de teste. Deixe a opção Importar com rotulagem automática desmarcada.

  6. Selecione Importar. A importação leva alguns minutos.

Opcional: visualizar e gerenciar conjunto de dados

  1. Na página Criar, você pode acessar o console Gerenciar conjunto de dados para ver e editar todos os documentos e rótulos no conjunto de dados.

Treinar processador baseado em modelo personalizado

Como o treinamento pode levar várias horas, confirme se você configurou o processador com os dados e rótulos apropriados antes de começar o treinamento.

  1. Para informações sobre os requisitos do conjunto de dados, em Treinar um modelo personalizado, clique em Criar nova versão ou Visualizar requisitos completos. Esse não é um modelo de IA generativa. São necessárias pelo menos 10 instâncias de treinamento e 10 instâncias de teste de cada campo para um processador baseado em modelo personalizado.

  2. No campo Nome da versão, insira um nome para essa versão do processador, como w2-custom-model.

  3. Opcional: selecione Ver estatísticas dos rótulos para conferir informações sobre os rótulos dos documentos. Isso pode ajudar a determinar a cobertura. Selecione Fechar para retornar à configuração de treinamento.

  4. Em Método de treinamento de modelo, selecione Baseado em modelo.

  5. Selecione Iniciar treinamento. O treinamento leva algumas horas. Você pode fechar esta página e voltar mais tarde.

  6. Opcional: clique na guia Implantar e usar. Nessa página, é possível conferir as versões disponíveis do processador e o status do treinamento da nova versão.

Implantar a versão do processador

  1. Após a conclusão do treinamento, selecione a guia Implantar e usar.

  2. Clique na caixa de seleção à esquerda da versão que você quer implantar e selecione Implantar.

  3. Selecione Implantar na caixa de diálogo. A implantação leva alguns minutos.

  4. Quando a versão for implantada, você poderá defini-la como Versão padrão ou fornecer o ID da versão ao processar documentos com a API.

Avaliar e testar o processador

  1. Selecione Avaliar para testar a versão do processador. Nessa página, é possível ver as métricas de avaliação, incluindo a pontuação F1, precisão e recall para o documento completo e os rótulos individuais. Para mais informações sobre avaliação e estatísticas, consulte Avaliar processador.

  2. Clique no seletor Versão e selecione a versão usando o modelo de fundação.

  3. Faça o download de um documento que não esteja envolvido em treinamentos ou testes anteriores para usá-lo na avaliação da versão do processador. Se você estiver usando seus próprios dados, use um documento reservado para essa finalidade.

    Fazer o download do PDF

  4. Selecione Fazer upload do documento de teste e selecione o documento que você acabou de fazer download. A página Análise de extrator de documentos personalizado é aberta. A saída na tela demonstra como o documento foi extraído.

  5. Teste o documento novamente usando a versão com um modelo treinado personalizado.

Usar o processador

Você criou e treinou um processador extrator personalizado.

É possível gerenciar suas versões de processador treinado personalizado como qualquer outra versão de processador. Para mais informações, consulte Como gerenciar versões do processador.

Para usar a API Document AI:

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

Para evitar cobranças desnecessárias do Google Cloud , use o console do Google Cloud para excluir o processador e o projeto se você não precisar deles.

Se você criou um projeto novo para aprender sobre a Document AI e não precisa mais dele, exclua o projeto.

Se você usou um projeto do Google Cloud , exclua os recursos criados para evitar cobranças na sua conta:

  1. No menu de navegação do console do Google Cloud, selecione Document AI e Meus processadores.

  2. Selecione Mais ações na mesma linha do processador que você quer excluir.

  3. Selecione Excluir processador, insira o nome do processador e selecione Excluir novamente para confirmar.

A seguir

Para mais detalhes, consulte os Guias.