O Document AI permite-lhe preparar novas versões do processador com os seus próprios dados de preparação e avaliar a qualidade da versão do processador em comparação com os seus próprios dados de teste.
Isto é útil quando quer usar um processador personalizado. Existe um processador de IA Documental para o seu tipo de documento, mas pode atualizá-lo para uma versão personalizada de forma a satisfazer as suas necessidades.
Normalmente, a preparação e a avaliação são realizadas em conjunto para iterar em direção a uma versão do processador de alta qualidade e utilizável.
Document AI
A Document AI permite-lhe criar o seu próprio extrator personalizado, que extrai entidades de documentos de um tipo específico, por exemplo, os itens num menu ou o nome e as informações de contacto de um currículo.
Ao contrário de outros processadores, os processadores personalizados não incluem versões de processadores pré-preparadas e, por isso, não podem processar documentos até preparar uma versão de raiz.
Para começar a usar a Document AI, consulte o artigo Crie o seu próprio processador personalizado.
Atualizar um processador
Pode atualizar novas versões do processador para melhorar a precisão dos seus dados, extrair campos personalizados adicionais dos seus documentos e adicionar suporte para novos idiomas.
A preparação atualizada funciona aplicando a aprendizagem por transferência nas versões do processador pré-preparado da Google e, geralmente, requer menos dados do que a preparação a partir do zero.
Para começar, consulte o artigo Atualize um processador pré-treinado.
Processadores suportados
Nem todos os processadores especializados suportam a formação. Estes são os processadores que suportam a preparação.
Considerações e recomendações sobre dados
A qualidade e a quantidade dos seus dados determinam a qualidade da preparação, da atualização da preparação e da avaliação.
A obtenção de um conjunto de documentos representativos do mundo real e a disponibilização de etiquetas de alta qualidade suficientes são, muitas vezes, a parte mais demorada e que requer mais recursos do processo.
Número de documentos
Se os seus documentos tiverem um formato semelhante (por exemplo, um formulário fixo com uma variação muito baixa), são necessários menos documentos para alcançar a precisão. Quanto maior for a variação, mais documentos são necessários.
Os gráficos seguintes fornecem uma estimativa aproximada do número de documentos necessários para que um extrator de documentos personalizado alcance uma pontuação de qualidade específica.
Variação baixa | Variação elevada |
---|---|
![]() |
![]() |
Etiquetagem de dados
Considere as suas opções para etiquetar documentos e certifique-se de que tem recursos suficientes para anotar os documentos no seu conjunto de dados.
Preparar modelos
Os processadores de extratores personalizados podem usar diferentes tipos de modelos, dependendo do exemplo de utilização específico e dos dados de preparação disponíveis.
- Modelo personalizado: modelo que usa dados de preparação etiquetados.
- Baseados em modelos: documentos com um esquema fixo.
- Baseados em modelos: documentos com alguma variação de esquema.
- Modelo de IA generativa: baseado em modelos de base pré-preparados que requerem uma preparação adicional mínima.
A tabela seguinte ilustra os exemplos de utilização que correspondem a cada tipo de modelo.
Modelo personalizado | IA generativa | ||
---|---|---|---|
Baseado em modelos | Baseado em modelos | ||
Variação do esquema | Nenhum | Baixa a média | Alto |
Quantidade de texto de forma livre (por exemplo, parágrafos num contrato) | Baixo | Baixo | Alto |
Quantidade de dados de preparação necessários | Baixo | Alto | Baixo |
Precisão com dados de preparação limitados | Superior | Inferior | Superior |
Aprenda a ajustar um processador com descrições de propriedades.
Quando usar outro processador
Seguem-se alguns exemplos em que pode querer considerar opções além do Document AI Workbench ou adaptar o seu fluxo de trabalho.
- Determinados formatos de entrada baseados em texto (.txt, .html, .docx, .md, etc.) não são suportados pelo Document AI Workbench do Document AI. Considere outras ofertas de processamento de linguagem pré-criadas ou personalizadas em Google Cloud, como a API Cloud Natural Language.
- O esquema do extrator de documentos personalizado suporta até 150 etiquetas de entidades. Se a sua lógica empresarial exigir mais de 150 entidades na definição do esquema, considere formar vários processadores, cada um segmentando um subconjunto de entidades.
Como formar um processador
Partindo do princípio de que já criou um processador que suporta o treino ou o treino adicional e etiquetou o seu conjunto de dados, pode treinar uma nova versão do processador de raiz. Em alternativa, pode atualizar uma nova versão do processador com base numa versão existente.
Versão do processador de comboios
IU da Web
Na Google Cloud consola, aceda ao separador Train do processador.
Clique em Editar esquema para abrir a página Gerir etiquetas. Valide as etiquetas do processador.
As etiquetas ativadas no momento da preparação determinam as entidades que a nova versão do processador extrai. Se uma etiqueta estiver inativa no esquema, a versão do processador não extrai essa etiqueta, mesmo que os documentos estejam etiquetados.
No separador Formar, clique em Ver estatísticas de etiquetas e valide o conjunto de testes e de formação. Os documentos etiquetados automaticamente, sem etiqueta ou não atribuídos são excluídos da preparação e avaliação.
Clique em Formar nova versão.
O Nome da versão define o campo
name
deprocessorVersion
.Clique em Iniciar preparação e aguarde até que a nova versão do processador seja preparada e avaliada.
Pode monitorizar o progresso da preparação no separador Gerir versões:
Clique no separador Avaliar e testar para ver o desempenho da nova versão do processador no conjunto de testes. Para mais informações, consulte o artigo Avalie a versão do processador.
Python
Para mais informações, consulte a documentação de referência da API Python Document AI.
Para se autenticar no Document AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Implemente e use a versão do processador
Pode implementar e gerir as versões do processador tal como faria com qualquer outra versão do processador. Para mais informações, consulte o artigo Gerir versões do processador.
Após a implementação, pode enviar um pedido de processamento ao seu processador personalizado.
Desative ou elimine um processador
Se já não quiser usar um processador, pode desativá-lo ou eliminá-lo. Se desativar um processador, pode voltar a ativá-lo. Se eliminar um processador, não o pode recuperar.
No painel Document AI à esquerda, clique em Os meus processadores.
Clique nos pontos verticais à direita do nome do processador. Clique em Desativar processador ou Eliminar processador.
Para mais informações, consulte o artigo Gerir versões do processador.
Encriptação de dados de preparação
Os dados de preparação da Document AI são guardados no Cloud Storage e podem ser encriptados com chaves de encriptação geridas pelo cliente se necessário.
Eliminação dos dados de preparação
Após a conclusão de uma tarefa de preparação do Document AI, todos os dados de preparação guardados no Cloud Storage expiram após um período de retenção de dois dias. As atividades de eliminação de dados subsequentes respeitam o processo descrito em Eliminação de dados no Google Cloud.
Preços
Não existem custos de formação ou atualização. Paga o alojamento e a previsão. Para mais informações, consulte a secção Preços do Document AI.