Mecanismos de extrator personalizados

Pode criar extratores personalizados especificamente adequados aos seus documentos, e preparados e avaliados com os seus dados. Este processador identifica e extrai entidades dos seus documentos. Em seguida, pode usar este processador preparado em documentos adicionais.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Crie um processador

    1. Na Google Cloud consola, na secção Document AI, aceda à página Workbench.

      Workbench

    2. Para o extrator personalizado, selecione Criar processador.

      updated-cde-2.0-path-to-docai-1

    3. No menu Criar processador, introduza um nome para o processador, como my-custom-document-extractor.

      updated-cde-2.0-path-to-docai-2

    4. Selecione a região mais próxima de si.

    5. Opcional: abra as Opções avançadas.

      • Tem a opção de permitir que a Google crie um contentor do Cloud Storage para si ou pode criar o seu próprio. Para este tutorial, selecione Armazenamento gerido pela Google.

      • Também tem a opção de usar chaves de encriptação geridas pela Google ou chaves de encriptação geridas pelo cliente (CMEK). Para este tutorial, selecione Google-managed encryption key.

    6. Selecione Criar para criar o processador.

    Defina campos do processador

    Encontra-se agora na página Vista geral do processador do processador que acabou de criar.

    updated-cde-2.0-path-to-docai-3

    Pode especificar os campos que quer que o processador extraia e começar a etiquetar documentos.

    1. Selecione o separador Começar. É apresentado o menu campos.

    2. Selecione Criar novo campo.

    3. Introduza o nome do campo. Selecione o Tipo de dados e a Ocorrência. Atribua à etiqueta uma descrição descritiva e distinta. A descrição da propriedade permite-lhe fornecer contexto, estatísticas e conhecimentos prévios adicionais para cada entidade, de modo a melhorar a precisão e o desempenho da extração.

    updated-cde-2.0-path-to-docai-9
    1. Selecione Criar. Consulte o artigo Defina o esquema do processador para ver instruções detalhadas sobre como criar e editar um esquema.
    1. Crie cada uma das seguintes etiquetas para o esquema do processador.

      Nome Tipo de dados Ocorrência
      control_number Número Múltiplo opcional
      employees_social_security_number Número Obrigatório múltiplo
      employer_identification_number Número Obrigatório múltiplo
      employers_name_address_and_zip_code Endereço Obrigatório múltiplo
      federal_income_tax_withheld Dinheiro Obrigatório múltiplo
      social_security_tax_withheld Dinheiro Obrigatório múltiplo
      social_security_wages Dinheiro Obrigatório múltiplo
      wages_tips_other_compensation Dinheiro Obrigatório múltiplo

      Também pode criar e usar outros tipos de etiquetas no seu esquema do processador, como caixas de verificação e entidades tabulares. Por exemplo, os formulários W-2 contêm caixas de verificação funcionário estatutário, plano de reforma e subsídio de doença de terceiros que também pode adicionar ao esquema.

      updated-cde-2.0-path-to-docai-4

    Carregue um documento de exemplo

    Teste com um documento de amostra.

    1. Selecione Carregar documento de amostra.

    2. Na barra lateral, selecione Importar documentos do Cloud Storage.

    3. Para este exemplo, introduza este nome do contentor em Caminho de origem. Este link direciona diretamente para um documento.

      cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
      
    4. Selecione Importar.

    É feito o redirecionamento para a consola de etiquetagem.

    Etiquete um documento

    O processo de selecionar texto num documento e aplicar etiquetas é conhecido como anotação ou etiquetagem.

    1. Quando estiver na consola de etiquetagem, repare que muitas das etiquetas já estão preenchidas. Isto deve-se ao facto de o tipo de modelo de extrator personalizado predefinido ser um modelo de base, que pode fazer previsões sem exemplos, ou seja, sem preparação.

      updated-cde-2.0-path-to-docai-5

    2. Para usar as etiquetas sugeridas, passe o ponteiro do rato sobre cada etiqueta no painel lateral e selecione a marca de verificação para confirmar que a etiqueta está correta. Não edite o texto, mesmo que o OCR leia o texto incorretamente.

    3. Neste exemplo, os valores na parte inferior do documento não foram identificados automaticamente, pelo que tem de os etiquetar manualmente.

    4. Use os ícones na barra de ferramentas acima do documento para etiquetar. Use a ferramenta caixa delimitadora por predefinição ou a ferramenta Selecionar texto para valores de várias linhas, para selecionar o conteúdo e aplicar a etiqueta.

    5. Depois de selecionar o texto, é apresentado um menu pendente com todos os campos definidos (entidades) para selecionar um. Neste exemplo, o valor de wages_tips_other_compensation é selecionado com a ferramenta de caixa delimitadora e essa etiqueta é aplicada.

      updated-cde-2.0-path-to-docai-6

    6. Reveja os valores de texto detetados para garantir que refletem a localização correta do texto para cada campo. O documento W2 etiquetado deve ter o seguinte aspeto quando estiver concluído:

      updated-cde-2.0-path-to-docai-7

    7. Se necessário, pode selecionar Criar novo campo para adicionar um novo campo ao esquema a partir desta página.

    8. Selecione Marcar como etiquetado quando terminar de anotar o documento. É feito o redirecionamento para o separador Começar.

    Crie a versão do processador com o modelo base

    Depois de etiquetar um único documento, pode criar uma versão do processador com o modelo base pré-preparado para extrair entidades.

    1. Selecione o separador Criar.

      updated-cde-2.0-path-to-docai-8

    2. Em Chamar modelo base, selecione Criar nova versão.

    3. Introduza um nome para a versão do processador, como w2-foundation-model.

    4. Selecione Criar versão. Demora alguns minutos a criar.

    5. Opcional: selecione o separador Implementar e usar. Nesta página, pode ver as versões do processador disponíveis e o estado de implementação da nova versão.

    Use a IA generativa para etiquetar documentos automaticamente

    O modelo base pode extrair campos com precisão para uma variedade de tipos de documentos, mas também pode fornecer dados de preparação adicionais para melhorar a precisão do modelo para estruturas de documentos específicas.

    O extrator personalizado usa os nomes das etiquetas que define e as anotações anteriores para tornar a etiquetagem de documentos em grande escala mais rápida e fácil com a etiquetagem automática.

    1. Aceda à página Compilar.

    2. Selecione Importar documentos.

    3. Na barra lateral, selecione Importar documentos do Google Cloud Storage.

    4. Introduza o nome do contentor que contém os seus documentos.

    5. Na lista Divisão de dados, selecione Divisão automática. Isto divide automaticamente os documentos para ter 80% no conjunto de preparação e 20% no conjunto de testes.

    6. Na secção Etiquetagem automática, selecione a caixa de verificação Importar com etiquetagem automática.

    7. Selecione a versão do processador do modelo base para etiquetar os documentos.

    8. Selecione Importar e aguarde que os documentos sejam importados. Pode sair desta página e voltar mais tarde.

    9. Tem de validar os documentos etiquetados automaticamente antes de os poder usar para preparação ou testes. Selecione Iniciar etiquetagem para ver os documentos etiquetados automaticamente.

    10. Para usar as etiquetas sugeridas, passe o ponteiro sobre cada anotação e selecione a marca de verificação para confirmar que a etiqueta está correta. Para fins de formação, não edite os valores se não corresponderem ao texto do documento. Só altere a caixa delimitadora se tiver sido selecionado o texto errado.

    11. Selecione Marcar como etiquetado quando terminar de anotar o documento.

    12. Repita o processo para cada documento etiquetado automaticamente.

    Importe documentos de preparação pré-etiquetados

    1. Aceda à página Compilar.

    2. Selecione Importar documentos.

    3. Na barra lateral, selecione Importar documentos do Cloud Storage.

    4. Introduza o caminho em Caminho de origem que contém os seus documentos. Este contentor deve conter documentos pré-etiquetados no formato JSON de documentos.

    5. Na lista Divisão de dados, selecione Divisão automática. Isto divide automaticamente os documentos para ter 80% no conjunto de preparação e 20% no conjunto de testes. Deixe a opção Importar com etiquetagem automática desmarcada.

    6. Selecione Importar. A importação demora vários minutos.

    Opcional: veja e faça a gestão do conjunto de dados

    1. Na página Criar, pode aceder à consola Gerir conjunto de dados para ver e editar todos os documentos e etiquetas no conjunto de dados.

    Prepare um processador baseado em modelos personalizados

    A preparação pode demorar várias horas. Certifique-se de que configurou o processador com os dados e as etiquetas adequados antes de iniciar a preparação.

    1. Para obter informações sobre os requisitos do conjunto de dados, em Forme um modelo personalizado, selecione Criar nova versão ou Ver requisitos completos. Este não é um modelo de IA generativa. São necessárias, pelo menos, 10 instâncias de preparação e 10 instâncias de teste de cada campo para um processador baseado num modelo personalizado.

    2. No campo Nome da versão, introduza um nome para esta versão do processador, como w2-custom-model.

    3. Opcional: selecione Ver estatísticas das etiquetas para encontrar informações sobre as etiquetas dos documentos. Isto pode ajudar a determinar a sua cobertura. Selecione Fechar para voltar à configuração de preparação.

    4. Em Método de preparação do modelo, selecione Com base no modelo.

    5. Selecione Iniciar treino. A preparação demora algumas horas. Pode fechar esta página e voltar mais tarde.

    6. Opcional: selecione o separador Implementar e usar. Nesta página, pode ver as versões do processador disponíveis e o estado de formação da nova versão.

    Implemente a versão do processador

    1. Após a conclusão da preparação, selecione o separador Implementar e usar.

    2. Selecione a caixa de verificação à esquerda da versão que quer implementar e selecione Implementar.

    3. Selecione Implementar na janela de diálogo. A implementação demora alguns minutos.

    4. Quando a versão é implementada, pode defini-la como a versão predefinida ou pode fornecer o ID da versão quando processa documentos com a API.

    Avalie e teste o processador

    1. Selecione o separador Avaliar para testar a versão do processador. Nesta página, pode ver as métricas de avaliação, incluindo a pontuação F1, a precisão e a revocação para o documento completo e as etiquetas individuais. Para mais informações sobre a avaliação e as estatísticas, consulte o artigo Avalie o processador.

    2. Selecione o seletor Versão e selecione a versão que usa o modelo base.

    3. Transferir um documento que não tenha sido usado em testes ou formação anteriores para que o possa usar para avaliar a versão do processador. Se usar os seus próprios dados, usaria um documento reservado para este fim.

      Transferir PDF

    4. Selecione Carregar documento de teste e selecione o documento que acabou de transferir. É apresentada a página Análise do extrator de documentos personalizado. O resultado no ecrã demonstra a qualidade da extração do documento.

    5. Teste novamente o documento com a versão que tem um modelo personalizado preparado.

    Use o processador

    Criou e preparou com êxito um processador de extrator personalizado.

    Pode gerir as versões do processador com preparação personalizada tal como qualquer outra versão do processador. Para mais informações, consulte o artigo Gerir versões do processador.

    Para usar a API Document AI:

    Limpar

    Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.

    Para evitar custos Google Cloud desnecessários, use o Google Cloud console para eliminar o processador e o projeto se não precisar deles.

    Se criou um novo projeto para saber mais sobre o Document AI e já não precisar do projeto, elimine-o.

    Se usou um Google Cloud projeto existente, elimine os recursos que criou para evitar incorrer em cobranças na sua conta:

    1. No Google Cloud menu de navegação da consola, selecione Document AI e, de seguida, Os meus processadores.

    2. Selecione Mais ações na mesma linha do processador que quer eliminar.

    3. Selecione Eliminar processador, introduza o nome do processador e, de seguida, selecione Eliminar novamente para confirmar.

    O que se segue?

    Para obter detalhes, consulte o artigo Guias.