Criar um classificador de documentos personalizado no console do Google Cloud

O classificador personalizado foi desenvolvido para classificar documentos. Ele é criado do zero usando seus próprios documentos e classes personalizadas.

Criar um classificador personalizado no console do Google Cloud

Você pode criar classificadores personalizados que são especificamente adequados para seus documentos, além de serem treinados e avaliados com seus dados. Este processador identifica classes de documentos de um conjunto de classes definido pelo usuário. Você pode usar o processador treinado em outros documentos. Normalmente, você usa um classificador personalizado em documentos de diferentes tipos e usa a identificação para enviar os documentos a um processador de extração para extrair as entidades.

Um fluxo de trabalho típico para criar e usar um classificador personalizado é o seguinte:

  1. Criar um classificador personalizado na Document AI.
  2. Criar um conjunto de dados usando um bucket vazio do Cloud Storage.
  3. Importar documentos.
  4. Anotar documentos manualmente no Document AI Workbench ou com tarefas de rotulagem.
  5. Atribuir documentos aos conjuntos de treinamento e teste.
  6. Treinar o processador.
  7. Avaliar o processador.
  8. Implantar o processador.
  9. Testar o processador.
  10. Usar o processador nos seus documentos.

É possível fazer suas próprias escolhas de configuração que sejam adequadas ao seu fluxo de trabalho.


Para seguir as instruções passo a passo desta tarefa diretamente no console do Google Cloud, clique em Orientação:

Orientações


Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

Criar um processador

1. Acesse o console do Google Cloud e selecione: Workbench
  1. Em Classificador de documentos personalizado, selecione Criar processador.

    custom-classifier-1

  2. No menu Criar processador, insira um nome para o processador, como my-custom-document-classifier.

    custom-classifier-2

  3. Selecione a região mais próxima de você.

  4. Selecione Criar. A guia Detalhes do processador é exibida.

Configurar conjunto de dados

Para treinar esse novo processador, você precisa criar um conjunto de dados com informações de treinamento e teste para ajudar o processador a identificar os documentos que você quer dividir e classificar.

Este conjunto de dados requer um novo local. Pode ser um bucket do Cloud Storage ou uma pasta vazia, ou você pode permitir um local gerenciado internamente.

Depois que a guia Detalhes do processador aparecer, você poderá:

  • Selecionar Armazenamento gerenciado pelo Google caso queira usar o Cloud Storage.
  • Selecione Vou especificar meu próprio local de armazenamento se você quiser usar seu próprio armazenamento para utilizar chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês) e seguir o procedimento posterior.

custom-classifier-3

Crie um bucket do Cloud Storage para o conjunto de dados

  1. Escolha a guia Treinar do processador.

  2. Clique em Definir local do conjunto de dados. Você precisa selecionar ou criar um bucket ou uma pasta vazio do Cloud Storage.

    custom-classifier-4

  3. Clique em Procurar para abrir Escolher pasta.

  4. Clique no ícone Criar um novo bucket e siga as instruções para criar um novo bucket. Saiba mais sobre como criar um bucket do Cloud Storage em Buckets do Cloud Storage.

    Observação: um bucket é a entidade de armazenamento de nível superior em que é possível aninhar pastas. Em vez de criar e selecionar um bucket, crie e selecione uma pasta vazia dentro de um bucket atual. Para mais informações, consulte Pastas simuladas do Cloud Storage.

    Depois de criar o bucket, a página Selecionar pasta será exibida para esse bucket.

  5. Na página Escolher pasta do bucket, selecione o botão Selecionar na parte de baixo da caixa de diálogo.

    custom-classifier-5

  6. Verifique se o caminho de destino está preenchido com o nome do bucket que você selecionou. Clique em Criar conjunto de dados. A criação do conjunto de dados pode levar vários minutos.

Importar documentos para um conjunto de dados

Em seguida, você vai importar seus documentos para seu conjunto de dados.

  1. Na guia Treinar, selecione Importar documentos.

    custom-classifier-6

  2. Para este exemplo, digite o nome do bucket em Caminho de origem Este link direciona para um documento.

    cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
    
  3. Em Divisão de dados, selecione Não atribuído. O documento nesta pasta não está atribuído ao conjunto de teste ou treinamento. Deixe a opção Importar com rotulagem automática desmarcada.

  4. Selecione Importar. A Document AI lê os documentos do bucket no conjunto de dados. Ele não modifica o bucket de importação ou faz uma leitura a partir do bucket após a conclusão da importação.

Quando você importa documentos, é possível atribuir os documentos ao conjunto de Treinamento ou Teste na importação ou esperar mais tarde.

Se quiser excluir um ou mais documentos importados, selecione-os na guia Treinar e clique em Excluir.

Para mais informações sobre como preparar os dados para importação, consulte o guia de preparação de dados.

Definir esquema do processado

É possível criar o esquema do processador antes ou depois de importar documentos para o conjunto de dados. O esquema fornece rótulos que serão usados para anotar documentos.

  1. Na guia Treinar, selecione Editar esquema no canto inferior esquerdo. A página Gerenciar marcadores é aberta.

  2. Selecione Criar rótulo.

  3. Digite o nome do marcador. Selecione o tipo de dados. Selecione Criar. Consulte Definir esquema de processador para instruções detalhadas sobre como criar e editar um esquema.

  1. Crie cada um dos rótulos a seguir para o esquema do processador.

    Nome Tipo de dado
    computer_vision Tipo de documento
    crypto Tipo de documento
    med_tech Tipo de documento
    other Tipo de documento
  2. Selecione Salvar quando os rótulos estiverem completos.

    custom-classifier-7

Rotular um documento

O processo para selecionar texto em um documento e aplicar rótulos é conhecido como anotação.

  1. Volte para a guia Treinar e selecione um documento para abrir o console de Gerenciamento de rótulos.

  2. No menu suspenso Tipo de documento, selecione o rótulo apropriado.

  3. Se você estiver usando o documento de amostra fornecido, selecione computer_vision.

    Quando concluído, o documento rotulado deve ficar assim: custom-classifier-8

  4. Selecione Marcar como rotulado quando terminar de anotar o documento.

    Na guia Treinar, o painel à esquerda mostra que um documento foi rotulado.

Atribuir documentos anotados ao conjunto de treinamento

Agora que você rotulou este documento de exemplo, é possível atribuí-lo ao conjunto de treinamento.

  1. Na guia Treinar, marque a caixa de seleção Selecionar tudo.

  2. Na lista suspensa Atribuir ao conjunto, selecione Treinamento.

No painel esquerdo, é possível conferir que um documento foi atribuído ao conjunto de treinamento.

Importar dados pré-rotulados para os conjuntos de treinamento e teste

Neste guia, fornecemos dados pré-rotulados.

Se estiver trabalhando no seu próprio projeto, é necessário determinar como rotular os dados. Consulte Opções de rotulagem. Os processadores personalizados da Document AI exigem no mínimo 10 documentos nos conjuntos de treinamento e teste, além de 10 instâncias de cada rótulo em cada conjunto. Recomendamos que você tenha pelo menos 50 documentos em cada conjunto, com 50 instâncias de cada rótulo para melhor desempenho. Em geral, mais dados de treinamento produzem maior precisão.

  1. Clique em Importar documentos.

  2. Insira o caminho a seguir em Caminho de origem. Esse bucket contém documentos pré-marcados no formato Document JSON.

    cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
    
  3. Na lista Divisão de dados, selecione Dividir automaticamente. Isso divide automaticamente os documentos para que tenham 80% no conjunto de treinamento e 20% no conjunto de teste. Ignore a seção Aplicar rótulos.

  4. Selecione Importar. A implantação pode levar alguns minutos para ser concluída.

Quando a importação for concluída, você vai encontrar os documentos na guia Treinar.

Opcional: identificador em lote de documentos na importação

Depois de configurar o esquema, é possível rotular todos os documentos que estão em um diretório específico na importação para poupar tempo com a rotulagem.

custom-classifier-9

  1. Clique em Importar documentos.

  2. Insira o caminho a seguir em Caminho de origem. Este bucket contém documentos sem rótulo em formato PDF.

    cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
    
  3. Na lista Divisão de dados, selecione Dividir automaticamente. Isso divide automaticamente os documentos para que tenham 80% no conjunto de treinamento e 20% no conjunto de teste.

  4. Na seção Aplicar marcadores, selecione Escolher marcador.

  5. Para esses documentos de amostra, selecione other.

  6. Selecione Importar e aguarde a conclusão do processo. Você pode sair desta página e continuar mais tarde. Quando eles forem concluídos, você vai encontrar os documentos na guia Treinar com o rótulo aplicado.

Treinar o processador

Agora que você importou os dados de treinamento e teste, é possível treinar o processador. Como o treinamento pode levar várias horas, confirme se você configurou o processador com os dados e rótulos apropriados antes de começar o treinamento.

  1. Selecione Treinar nova versão.

  2. No campo Nome da versão, insira um nome para essa versão do processador, como my-cdc-version-1.

  3. (Opcional) Selecione Ver estatísticas dos rótulos para conferir informações sobre os rótulos dos documentos. Isso pode ajudar a determinar a cobertura. Selecione Fechar para retornar à configuração de treinamento.

  4. Selecione Iniciar treinamento. É possível verificar o status no painel à direita.

Implantar a versão do processador

  1. Após a conclusão do treinamento, navegue até a guia Gerenciar versões. É possível ver detalhes sobre a versão que você acabou de treinar.

  2. Selecione os três pontos verticais à direita da versão que você quer implantar e clique em Implantar versão.

  3. Selecione Implantar na janela pop-up.

    A implantação leva alguns minutos para ser concluída.

Avaliar e testar o processador

  1. Após a conclusão da implantação, navegue até a guia Avaliar e testar.

    Nessa página, é possível ver as métricas de avaliação, incluindo a pontuação F1, Precisão e Recall para o documento completo e os marcadores individuais. Para mais informações sobre avaliação e estatísticas, consulte Avaliar processador.

  2. Faça o download de um documento que não esteja envolvido em treinamentos ou testes anteriores para usá-lo na avaliação da versão do processador. Se você estiver usando seus próprios dados, use um documento reservado para essa finalidade.

    Fazer o download do PDF

  3. Clique em Fazer upload do documento de teste e escolha documento que você acabou de fazer download.

    A página Análise de classificador de documentos personalizada é aberta. A saída demonstra como o documento foi classificado.

    Também é possível executar novamente a avaliação em um conjunto de teste ou versão de processador diferente.

Opcional: marcar automaticamente documentos recém-importados

Depois de implantar uma versão de processador treinado, é possível usar a rotulação automática para economizar tempo na rotulagem ao importar novos documentos.

  1. Na página Treinar, Importar documentos.

  2. Copie e cole o caminho do Cloud Storage a seguir. Esse diretório contém cinco PDFs patenteados sem marcador. Na lista suspensa Divisão de dados, selecione Treinamento.

    cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
    
  3. Na seção Aplicar rótulos, selecione rotulação automática.

  4. Selecione uma versão do processador existente para rotular os documentos.

    • Por exemplo: 2af620b2fd4d1fcf
  5. Selecione Importar e aguarde a conclusão do processo. Você pode sair desta página e continuar mais tarde. Quando terminar, os documentos vão aparecer na seção Rotulados automaticamente da página Treinar.

  6. Não é possível usar documentos com rótulos automáticos para treinamento ou teste sem marcá-los como rotulados. Acesse a seção Marcados automaticamente para ver os documentos rotulados automaticamente.

  7. Selecione o primeiro documento para acessar o console de rotulagem.

  8. Verifique se o rótulo está correto. Ajuste se ele estiver incorreto.

  9. Selecione Marcar como rotulado quando terminar.

  10. Repita a verificação de cada documento com rótulo automático e volte à página Treinar para usar os dados para o treinamento.

Usar o processador

Você criou e treinou um processador do classificador de documentos personalizado.

É possível gerenciar versões do processador treinados e personalizados como qualquer outra versão do processador. Para mais informações, consulte Como gerenciar versões do processador.

É possível enviar uma solicitação de processamento ao processador personalizado, e a resposta pode ser processada da mesma forma que outros processadores classificadores.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

Para evitar cobranças desnecessárias do Google Cloud , use o console do Google Cloud para excluir o processador e o projeto se você não precisar deles.

Se você criou um projeto novo para aprender sobre a Document AI e não precisa mais dele, exclua o projeto.

Se você usou um projeto do Google Cloud , exclua os recursos criados para evitar cobranças na sua conta:

  1. No menu de navegação do console do Google Cloud, selecione Document AI e Meus processadores.

  2. Selecione Mais ações na mesma linha do processador que você quer excluir.

  3. Selecione Excluir processador, insira o nome do processador e selecione Excluir novamente para confirmar.

A seguir