Criar, usar e gerenciar um classificador de documentos personalizado
Use o classificador personalizado para classificar documentos. Crie do zero com seus próprios documentos e classes personalizadas. O aspecto de IA generativa permite o treinamento few-shot e o ajuste detalhado. Isso melhora a acurácia com menos amostras e correções com a identificação automática iterativa.
Versões do modelo de classificador personalizado
Versão do modelo | Descrição | Canal de lançamento | Processamento de ML nos EUA/UE | Ajuste de detalhes nos EUA/UE | Data de lançamento |
---|---|---|---|---|---|
pretrained-foundation-model-v1.4-2025-06-16 |
Candidato pronto para Production com tecnologia do LLM Gemini 2.0 Flash. Também inclui recursos avançados de OCR, como detecção de caixas de seleção. | Estável | Sim | EUA, UE (pré-lançamento) | 16 de junho de 2025 |
Criar um classificador personalizado no console Google Cloud
Você pode criar classificadores personalizados que são especificamente adequados para seus documentos, além de serem treinados e avaliados com seus dados. Este processador identifica classes de documentos de um conjunto de classes definido pelo usuário. Você pode usar o processador treinado em outros documentos. Normalmente, você usa um classificador personalizado em documentos de diferentes tipos e usa a identificação para enviar os documentos a um processador de extração para extrair as entidades.
Para saber o processo geral de criação e uso de um processador, consulte a seção Como fazer.
É possível fazer suas próprias escolhas de configuração que sejam adequadas ao seu fluxo de trabalho.
Para seguir as instruções detalhadas desta tarefa diretamente no console do Google Cloud , clique em Orientação:
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Acesse o console doGoogle Cloud e selecione: Workbench
Para o classificador de documentos personalizado, selecione
Criar processador .No menu Criar processador, insira um nome para o processador, como
my-custom-document-classifier
.Selecione a região mais próxima de você.
Selecione Criar. A guia Detalhes do processador é exibida.
- Selecionar Armazenamento gerenciado pelo Google caso queira usar o Cloud Storage.
- Selecione Vou especificar meu próprio local de armazenamento se você quiser usar seu próprio armazenamento para utilizar chaves de criptografia gerenciadas pelo cliente (CMEK) e siga o procedimento em Criar um conjunto de dados.
Na guia Criar, selecione
Importar documentos .Ao escolher usar um bucket de armazenamento, insira o Caminho de origem do bucket. Para este exemplo de treinamento, insira o nome do bucket em
Caminho de origem . Este link direciona para um documento.cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
Em Divisão de dados, selecione Não atribuído. O documento nesta pasta não está atribuído ao conjunto de teste ou treinamento. Deixe a opção Importar com rotulagem automática desmarcada.
Selecione Importar. A Document AI lê os documentos do bucket no conjunto de dados. Ele não modifica o bucket de importação ou faz uma leitura a partir do bucket após a conclusão da importação.
Opcional: para excluir documentos importados, na guia Criar, acesse Gerenciar conjunto de dados > selecione os documentos > clique em Excluir.
Na guia Build, selecione Gerenciar conjunto de dados > Editar esquema. A página Editar esquema é aberta.
Selecione
Criar rótulo .Digite o nome do marcador.
Selecione Criar. Consulte Definir esquema de processador para instruções detalhadas sobre como criar e editar um esquema.
Crie cada um dos rótulos a seguir para o esquema do processador.
computer_vision
crypto
med_tech
other
Selecione
Salvar quando os rótulos estiverem completos.Volte para a guia Criar e selecione
um documento para abrir o console Gerenciar conjunto de dados.Entre as
opções , selecione o marcador apropriado para o documento. Se você estiver usando o documento de amostra fornecido, selecionecomputer_vision
.Quando rotulado, o documento deve ficar assim:
Selecione
Marcar como rotulado quando terminar de anotar o documento.Na guia Gerenciar conjunto de dados, o painel Documento mostra que um documento foi rotulado.
Na guia Gerenciar conjunto de dados, marque a caixa de seleção
Selecionar tudo .Na lista suspensa
Atribuir ao conjunto , selecione Treinamento.Clique em
Importar documentos .Insira o caminho a seguir em
Caminho de origem . Esse bucket contém documentos pré-marcados no formato Document JSON.cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
Na lista Divisão de dados, selecione Dividir automaticamente. Isso divide automaticamente os documentos para que tenham 80% no conjunto de treinamento e 20% no conjunto de teste. Ignore a seção Aplicar rótulos.
Selecione Importar. A implantação pode levar alguns minutos para ser concluída.
Clique em
Importar documentos .Insira o caminho a seguir em
Caminho de origem . Este bucket contém documentos sem rótulo em formato PDF.cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
Na lista Divisão de dados, selecione Dividir automaticamente. Isso divide automaticamente os documentos para que tenham 80% no conjunto de treinamento e 20% no conjunto de teste.
Na seção Aplicar marcadores, selecione Escolher marcador.
Para esses documentos de amostra, selecione
other
.Selecione Importar e aguarde a conclusão do processo. Você pode sair desta página e continuar mais tarde. Quando eles forem concluídos, você vai encontrar os documentos na guia Gerenciar conjunto de dados com o rótulo aplicado.
- Selecione
Treinar nova versão . No campo
Nome da versão , insira um nome para essa versão do processador, comomy-cdc-version-1
.Opcional: selecione Ver estatísticas dos rótulos para encontrar informações sobre os rótulos dos documentos que podem ajudar a determinar sua cobertura. Selecione Fechar para retornar à configuração de treinamento.
Selecione
Iniciar treinamento. Confira o status no painel lateral.Após a conclusão do treinamento, navegue até a guia
Gerenciar versões . É possível ver detalhes sobre a versão que você acabou de treinar.Selecione o
ao lado da versão que você quer implantar e selecione Implantar versão. Selecione
Implantar na caixa de diálogo.A implantação leva alguns minutos para ser concluída.
Após a conclusão da implantação, navegue até a guia
Avaliar e testar .Nessa página, é possível encontrar as métricas de avaliação, incluindo a pontuação F1, precisão e recall para o documento completo e os rótulos individuais. Para mais informações sobre avaliação e estatísticas, consulte Avaliar processador.
Faça o download de um documento que não esteja envolvido em treinamentos ou testes anteriores para usá-lo na avaliação da versão do processador. Se você estiver usando seus próprios dados, use um documento reservado para essa finalidade.
Clique em
Fazer upload do documento de teste e escolha documento que você acabou de fazer download.A página Análise de classificador de documentos personalizada é aberta. A saída demonstra como o documento foi classificado.
Também é possível executar novamente a avaliação em um conjunto de teste ou versão de processador diferente.
Na página Gerenciar conjunto de dados,
Importar documentos .Copie e cole o caminho do Cloud Storage a seguir. Esse diretório contém cinco PDFs de patentes sem marcador. Na lista suspensa Divisão de dados, selecione Treinamento.
cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
Na seção Aplicar rótulos, selecione rotulação automática.
Selecione uma versão do processador existente para rotular os documentos.
- Por exemplo:
2af620b2fd4d1fcf
- Por exemplo:
Selecione Importar e aguarde a conclusão do processo. Você pode sair desta página e continuar mais tarde. Quando terminar, os documentos vão aparecer na seção Rotulados automaticamente da página Gerenciar conjunto de dados.
Não é possível usar documentos com rótulos automáticos para treinamento ou teste sem marcá-los como rotulados. Acesse a seção
Rotulados automaticamente para conferir os documentos rotulados automaticamente.Selecione o primeiro documento para acessar o console de rotulagem.
Verifique se o rótulo está correto. Ajuste se ele estiver incorreto.
Selecione
Marcar como rotulado quando terminar.Repita a verificação de cada documento com rótulo automático e volte à página Gerenciar conjunto de dados para atribuir os dados ao treinamento.
No menu de navegação do console Google Cloud , selecione Document AI e Meus processadores.
Selecione
Mais ações na mesma linha do processador que você quer excluir.Clique em Excluir processador, insira o nome do processador e selecione Excluir novamente para confirmar.
- Para mais detalhes, consulte os Guias.
- Consulte a lista de processadores.
- Separe documentos em partes legíveis com o Layout Parser.
- Use o Enterprise Document OCR para detectar e extrair texto.
Criar um processador
Siga as etapas a seguir.
Configurar conjunto de dados
Para treinar esse novo processador, você precisa criar um conjunto de dados com informações de treinamento e teste para ajudar o processador a identificar os documentos que você quer dividir e classificar. Este conjunto de dados requer um novo local. Pode ser um bucket do Cloud Storage ou uma pasta vazia, ou você pode permitir um local gerenciado internamente.
Depois que a guia Detalhes do processador aparecer, você poderá:
Importar documentos para um conjunto de dados
Em seguida, você vai importar seus documentos para seu conjunto de dados.
Quando você importa documentos, é possível atribuir os documentos ao conjunto de Treinamento ou Teste na importação ou esperar mais tarde.
Para mais informações sobre como preparar os dados para importação, consulte o guia de preparação de dados.
Definir esquema do processado
É possível criar o esquema do processador antes ou depois de importar documentos para o conjunto de dados. O esquema fornece rótulos que serão usados para anotar documentos.
Rotular um documento
O processo para selecionar texto em um documento e aplicar rótulos é conhecido como anotação.
Atribuir documentos anotados ao conjunto de treinamento
Agora que você rotulou este documento de exemplo, é possível atribuí-lo ao conjunto de treinamento.
No painel Documentos, é possível conferir que um documento foi atribuído ao conjunto de treinamento.
Importar dados pré-rotulados para os conjuntos de treinamento e teste
Neste guia, fornecemos dados pré-rotulados. Se estiver trabalhando no seu próprio projeto, é necessário determinar como rotular os dados. Consulte Opções de rotulagem.
Os processadores personalizados da Document AI exigem no mínimo um documento nos conjuntos de treinamento e teste para cada tipo de documento a ser rotulado. Recomendamos que você tenha pelo menos 10 documentos para cada rótulo para melhor desempenho. Para cinco rótulos, você precisaria de 50 documentos para treinamento e 50 para teste. Mais dados de treinamento geralmente produzem maior acurácia.
Quando a importação for concluída, você vai encontrar os documentos na guia Gerenciar conjunto de dados.
Identificar documentos em lote na importação
Depois de configurar o esquema, é possível rotular todos os documentos que estão em um diretório específico na importação para poupar tempo com a rotulagem.
Treinar o processador
Agora que você importou os dados de treinamento e teste, é possível treinar o processador. Como o treinamento pode levar várias horas, confirme se você configurou o processador com os dados e rótulos apropriados antes de começar o treinamento.
É possível treinar modelos personalizados e ajustados com seus dados rotulados. Os modelos ajustados usam IA generativa. Os modelos personalizados treinam um modelo de linguagem grande exclusivo usando seus dados rotulados. É necessário ter pelo menos dois rótulos no esquema, com 10 documentos de treinamento e 10 de teste (mínimo de 1) recomendados.

Implantar a versão do processador
Avaliar e testar o processador
Rotular automaticamente documentos recém-importados
Depois de implantar uma versão do processador treinado, use a Rotulagem automática para poupar tempo ao importar novos documentos.
Usar o processador
É possível gerenciar versões do processador treinadas e personalizadas como qualquer outra versão do processador. Para mais informações, consulte Como gerenciar versões do processador.
Também é possível enviar uma solicitação de processamento ao processador personalizado, e a resposta pode ser processada da mesma forma que outros processadores classificadores.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.