Os dados de treinamento da extração de entidades consistem em documentos anotados com os rótulos que identificam os tipos de entidades que você quer que o modelo identifique. Por exemplo, é possível criar um modelo de extração de entidades para identificar a terminologia especializada em documentos ou patentes legais. As anotações especificam os locais das entidades que você está rotulando e os próprios rótulos.
Ao fazer anotações em documentos estruturados ou semiestruturados para um conjunto de dados usado no treinamento de modelos do AutoML, como faturas ou contratos, a Vertex AI pode considerar a posição de uma anotação na página como um fator que contribui ao rótulo adequado. Por exemplo, um contrato imobiliário tem uma data de aceitação e uma data de encerramento. A Vertex AI pode aprender a diferenciar as entidades com base na posição espacial da anotação.
Requisitos de dados
- Você precisa fornecer no mínimo 50 e no máximo 100.000 documentos de treinamento.
- É preciso fornecer no mínimo 1 e no máximo 100 rótulos exclusivos para anotar entidades que você queira extrair.
- Você pode usar um marcador para fazer anotações entre 1 e 10 palavras.
- Os nomes dos rótulos podem ter entre dois e 30 caracteres.
- Você pode incluir anotações nos arquivos de linhas JSON ou adicioná-las mais tarde usando o Console do Google Cloud depois de fazer upload de documentos.
- É possível incluir documentos in-line ou referência em arquivos TXT que estejam em buckets do Cloud Storage.
Práticas recomendadas para dados de texto usados para treinar modelos do AutoML
As recomendações a seguir se aplicam a conjuntos de dados usados para treinar modelos do AutoML.
- Use cada rótulo pelo menos 200 vezes no conjunto de dados de treinamento.
- Anote todas as ocorrências de entidades que você quer que o modelo identifique.
Arquivos de entrada
Os tipos de arquivo de entrada para extração de entidade precisam ser linhas JSON. O formato, os nomes de campos e os tipos de valores dos arquivos de linhas JSON são determinados por um arquivo de esquema, que são arquivos YAML de acesso público.
É possível fazer o download do arquivo de esquema para a extração de entidade do seguinte local do Cloud Storage:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_extraction_io_format_1.0.0.yaml para criar um anexo da VLAN de monitoramento.
O exemplo a seguir mostra como é possível usar o esquema para criar seu próprio arquivo de linhas JSON. O exemplo inclui quebras de linha para facilitar a leitura. Nos arquivos JSON, inclua quebras de linha somente após cada documento. O campo dataItemResourceLabels
especifica, por exemplo, ml_use
e é opcional.
{ "textSegmentAnnotations": [ { "startOffset":number, "endOffset":number, "displayName": "label" }, ... ], "textContent": "inline_text", "dataItemResourceLabels": { "aiplatform.googleapis.com/ml_use": "training|test|validation" } } { "textSegmentAnnotations": [ { "startOffset":number, "endOffset":number, "displayName": "label" }, ... ], "textGcsUri": "gcs_uri_to_file", "dataItemResourceLabels": { "aiplatform.googleapis.com/ml_use": "training|test|validation" } }
Também é possível anotar documentos usando o Console do Google Cloud. Crie um
arquivo de linhas JSON apenas com conteúdo (sem o campo textSegmentAnnotations
).
Os documentos são enviados para a Vertex AI sem anotações.