Criar um classificador de documentos personalizado no console do Google Cloud
O classificador personalizado foi desenvolvido para classificar documentos. Ele é criado do zero usando seus próprios documentos e classes personalizadas.
Criar um classificador personalizado no console do Google Cloud
Você pode criar classificadores personalizados que são especificamente adequados para seus documentos, além de serem treinados e avaliados com seus dados. Este processador identifica classes de documentos de um conjunto de classes definido pelo usuário. Você pode usar o processador treinado em outros documentos. Normalmente, você usa um classificador personalizado em documentos de diferentes tipos e usa a identificação para enviar os documentos a um processador de extração para extrair as entidades.
Um fluxo de trabalho típico para criar e usar um classificador personalizado é o seguinte:
- Criar um classificador personalizado na Document AI.
- Criar um conjunto de dados usando um bucket vazio do Cloud Storage.
- Importar documentos.
- Anotar documentos manualmente no Document AI Workbench ou com tarefas de rotulagem.
- Atribuir documentos aos conjuntos de treinamento e teste.
- Treinar o processador.
- Avaliar o processador.
- Implantar o processador.
- Testar o processador.
- Usar o processador nos seus documentos.
É possível fazer suas próprias escolhas de configuração que sejam adequadas ao seu fluxo de trabalho.
Para seguir as instruções passo a passo desta tarefa diretamente no console do Google Cloud, clique em Orientação:
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Criar um processador
1. Acesse o console do Google Cloud e selecione: WorkbenchEm Classificador de documentos personalizado, selecione
Criar processador .No menu Criar processador, insira um nome para o processador, como
my-custom-document-classifier
.Selecione a região mais próxima de você.
Selecione Criar. A guia Detalhes do processador é exibida.
Configurar conjunto de dados
Para treinar esse novo processador, você precisa criar um conjunto de dados com informações de treinamento e teste para ajudar o processador a identificar os documentos que você quer dividir e classificar.
Este conjunto de dados requer um novo local. Pode ser um bucket do Cloud Storage ou uma pasta vazia, ou você pode permitir um local gerenciado internamente.
Depois que a guia Detalhes do processador aparecer, você poderá:
- Selecionar Armazenamento gerenciado pelo Google caso queira usar o Cloud Storage.
- Selecione Vou especificar meu próprio local de armazenamento se você quiser usar seu próprio armazenamento para utilizar chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês) e seguir o procedimento posterior.
Crie um bucket do Cloud Storage para o conjunto de dados
Escolha a guia
Treinar do processador.Clique em
Definir local do conjunto de dados . Você precisa selecionar ou criar um bucket ou uma pasta vazio do Cloud Storage.Clique em
Procurar para abrir Escolher pasta.Clique no ícone
Criar um novo bucket e siga as instruções para criar um novo bucket. Saiba mais sobre como criar um bucket do Cloud Storage em Buckets do Cloud Storage.Observação: um bucket é a entidade de armazenamento de nível superior em que é possível aninhar pastas. Em vez de criar e selecionar um bucket, crie e selecione uma pasta vazia dentro de um bucket atual. Para mais informações, consulte Pastas simuladas do Cloud Storage.
Depois de criar o bucket, a página Selecionar pasta será exibida para esse bucket.
Na página Escolher pasta do bucket, selecione o botão
Selecionar na parte de baixo da caixa de diálogo.Verifique se o caminho de destino está preenchido com o nome do bucket que você selecionou. Clique em
Criar conjunto de dados . A criação do conjunto de dados pode levar vários minutos.
Importar documentos para um conjunto de dados
Em seguida, você vai importar seus documentos para seu conjunto de dados.
Na guia Treinar, selecione
Importar documentos .Para este exemplo, digite o nome do bucket em
Caminho de origem Este link direciona para um documento.cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
Em Divisão de dados, selecione Não atribuído. O documento nesta pasta não está atribuído ao conjunto de teste ou treinamento. Deixe a opção Importar com rotulagem automática desmarcada.
Selecione Importar. A Document AI lê os documentos do bucket no conjunto de dados. Ele não modifica o bucket de importação ou faz uma leitura a partir do bucket após a conclusão da importação.
Quando você importa documentos, é possível atribuir os documentos ao conjunto de Treinamento ou Teste na importação ou esperar mais tarde.
Se quiser excluir um ou mais documentos importados, selecione-os na guia Treinar e clique em Excluir.
Para mais informações sobre como preparar os dados para importação, consulte o guia de preparação de dados.
Definir esquema do processado
É possível criar o esquema do processador antes ou depois de importar documentos para o conjunto de dados. O esquema fornece rótulos que serão usados para anotar documentos.
Na guia Treinar, selecione
Editar esquema no canto inferior esquerdo. A página Gerenciar marcadores é aberta.Selecione
Criar rótulo .Digite o nome do marcador. Selecione o tipo de dados. Selecione Criar. Consulte Definir esquema de processador para instruções detalhadas sobre como criar e editar um esquema.
Crie cada um dos rótulos a seguir para o esquema do processador.
Nome Tipo de dado computer_vision
Tipo de documento crypto
Tipo de documento med_tech
Tipo de documento other
Tipo de documento Selecione
Salvar quando os rótulos estiverem completos.
Rotular um documento
O processo para selecionar texto em um documento e aplicar rótulos é conhecido como anotação.
Volte para a guia Treinar e selecione
um documento para abrir o console de Gerenciamento de rótulos.No
menu suspenso Tipo de documento , selecione o rótulo apropriado.Se você estiver usando o documento de amostra fornecido, selecione
computer_vision
.Quando concluído, o documento rotulado deve ficar assim:
Selecione
Marcar como rotulado quando terminar de anotar o documento.Na guia Treinar, o painel à esquerda mostra que um documento foi rotulado.
Atribuir documentos anotados ao conjunto de treinamento
Agora que você rotulou este documento de exemplo, é possível atribuí-lo ao conjunto de treinamento.
Na guia Treinar, marque a caixa de seleção
Selecionar tudo .Na lista suspensa
Atribuir ao conjunto , selecione Treinamento.
No painel esquerdo, é possível conferir que um documento foi atribuído ao conjunto de treinamento.
Importar dados pré-rotulados para os conjuntos de treinamento e teste
Neste guia, fornecemos dados pré-rotulados.
Se estiver trabalhando no seu próprio projeto, é necessário determinar como rotular os dados. Consulte Opções de rotulagem. Os processadores personalizados da Document AI exigem no mínimo 10 documentos nos conjuntos de treinamento e teste, além de 10 instâncias de cada rótulo em cada conjunto. Recomendamos que você tenha pelo menos 50 documentos em cada conjunto, com 50 instâncias de cada rótulo para melhor desempenho. Em geral, mais dados de treinamento produzem maior precisão.
Clique em
Importar documentos .Insira o caminho a seguir em
Caminho de origem . Esse bucket contém documentos pré-marcados no formato Document JSON.cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
Na lista Divisão de dados, selecione Dividir automaticamente. Isso divide automaticamente os documentos para que tenham 80% no conjunto de treinamento e 20% no conjunto de teste. Ignore a seção Aplicar rótulos.
Selecione Importar. A implantação pode levar alguns minutos para ser concluída.
Quando a importação for concluída, você vai encontrar os documentos na guia Treinar.
Opcional: identificador em lote de documentos na importação
Depois de configurar o esquema, é possível rotular todos os documentos que estão em um diretório específico na importação para poupar tempo com a rotulagem.
Clique em
Importar documentos .Insira o caminho a seguir em
Caminho de origem . Este bucket contém documentos sem rótulo em formato PDF.cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
Na lista Divisão de dados, selecione Dividir automaticamente. Isso divide automaticamente os documentos para que tenham 80% no conjunto de treinamento e 20% no conjunto de teste.
Na seção Aplicar marcadores, selecione Escolher marcador.
Para esses documentos de amostra, selecione
other
.Selecione Importar e aguarde a conclusão do processo. Você pode sair desta página e continuar mais tarde. Quando eles forem concluídos, você vai encontrar os documentos na guia Treinar com o rótulo aplicado.
Treinar o processador
Agora que você importou os dados de treinamento e teste, é possível treinar o processador. Como o treinamento pode levar várias horas, confirme se você configurou o processador com os dados e rótulos apropriados antes de começar o treinamento.
Selecione
Treinar nova versão .No campo
Nome da versão , insira um nome para essa versão do processador, comomy-cdc-version-1
.(Opcional) Selecione Ver estatísticas dos rótulos para conferir informações sobre os rótulos dos documentos. Isso pode ajudar a determinar a cobertura. Selecione Fechar para retornar à configuração de treinamento.
Selecione
Iniciar treinamento . É possível verificar o status no painel à direita.
Implantar a versão do processador
Após a conclusão do treinamento, navegue até a guia
Gerenciar versões . É possível ver detalhes sobre a versão que você acabou de treinar.Selecione os
três pontos verticais à direita da versão que você quer implantar e clique em Implantar versão.Selecione
Implantar na janela pop-up.A implantação leva alguns minutos para ser concluída.
Avaliar e testar o processador
Após a conclusão da implantação, navegue até a guia
Avaliar e testar .Nessa página, é possível ver as métricas de avaliação, incluindo a pontuação F1, Precisão e Recall para o documento completo e os marcadores individuais. Para mais informações sobre avaliação e estatísticas, consulte Avaliar processador.
Faça o download de um documento que não esteja envolvido em treinamentos ou testes anteriores para usá-lo na avaliação da versão do processador. Se você estiver usando seus próprios dados, use um documento reservado para essa finalidade.
Clique em
Fazer upload do documento de teste e escolha documento que você acabou de fazer download.A página Análise de classificador de documentos personalizada é aberta. A saída demonstra como o documento foi classificado.
Também é possível executar novamente a avaliação em um conjunto de teste ou versão de processador diferente.
Opcional: marcar automaticamente documentos recém-importados
Depois de implantar uma versão de processador treinado, é possível usar a rotulação automática para economizar tempo na rotulagem ao importar novos documentos.
Na página Treinar,
Importar documentos .Copie e cole o caminho do Cloud Storage a seguir. Esse diretório contém cinco PDFs patenteados sem marcador. Na lista suspensa Divisão de dados, selecione Treinamento.
cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
Na seção Aplicar rótulos, selecione rotulação automática.
Selecione uma versão do processador existente para rotular os documentos.
- Por exemplo:
2af620b2fd4d1fcf
- Por exemplo:
Selecione Importar e aguarde a conclusão do processo. Você pode sair desta página e continuar mais tarde. Quando terminar, os documentos vão aparecer na seção Rotulados automaticamente da página Treinar.
Não é possível usar documentos com rótulos automáticos para treinamento ou teste sem marcá-los como rotulados. Acesse a seção
Marcados automaticamente para ver os documentos rotulados automaticamente.Selecione o primeiro documento para acessar o console de rotulagem.
Verifique se o rótulo está correto. Ajuste se ele estiver incorreto.
Selecione
Marcar como rotulado quando terminar.Repita a verificação de cada documento com rótulo automático e volte à página Treinar para usar os dados para o treinamento.
Usar o processador
Você criou e treinou um processador do classificador de documentos personalizado.
É possível gerenciar versões do processador treinados e personalizados como qualquer outra versão do processador. Para mais informações, consulte Como gerenciar versões do processador.
É possível enviar uma solicitação de processamento ao processador personalizado, e a resposta pode ser processada da mesma forma que outros processadores classificadores.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
Para evitar cobranças desnecessárias do Google Cloud , use o console do Google Cloud para excluir o processador e o projeto se você não precisar deles.
Se você criou um projeto novo para aprender sobre a Document AI e não precisa mais dele, exclua o projeto.
Se você usou um projeto do Google Cloud , exclua os recursos criados para evitar cobranças na sua conta:
No menu de navegação do console do Google Cloud, selecione Document AI e Meus processadores.
Selecione
Mais ações na mesma linha do processador que você quer excluir.Selecione Excluir processador, insira o nome do processador e selecione Excluir novamente para confirmar.
A seguir
- Para mais detalhes, consulte os Guias.
- Consulte a lista de processadores.
- Separe documentos em partes legíveis com o Layout Parser.
- Use o Enterprise Document OCR para detectar e extrair texto.