Questa pagina descrive come preparare i dati di testo da utilizzare in un set di dati Vertex AI per addestrare un modello di estrazione di entità.
I dati di addestramento per l'estrazione delle entità consistono in documenti annotati con le etichette che identificano i tipi di entità che vuoi che il modello identifichi. Ad esempio, potresti creare un modello di estrazione di entità per identificare la terminologia specializzata in documenti legali o brevetti. Le annotazioni specificano le posizioni delle entità che stai etichettando e le etichette stesse.
Se annoti documenti strutturati o semistrutturati per un set di dati utilizzato per addestrare i modelli AutoML, come fatture o contratti, Vertex AI può considerare la posizione di un'annotazione sulla pagina come un fattore che contribuisce alla sua etichetta corretta. Ad esempio, un contratto immobiliare ha sia una data di accettazione sia una data di chiusura. Vertex AI può imparare a distinguere le entità in base alla posizione spaziale dell'annotazione.
Requisiti dei dati
- Devi fornire almeno 50 e non più di 100.000 documenti di addestramento.
- Devi fornire almeno 1 etichetta univoca e non più di 100 per annotare le entità che vuoi estrarre.
- Puoi utilizzare un'etichetta per annotare da 1 a 10 parole.
- I nomi delle etichette possono avere una lunghezza compresa tra 2 e 30 caratteri.
- Puoi includere le annotazioni nei file JSON Lines oppure aggiungerle successivamente utilizzando la console Google Cloud dopo aver caricato i documenti.
- Puoi includere documenti in linea o file TXT di riferimento che si trovano nei bucket Cloud Storage.
Best practice per i dati di testo utilizzati per addestrare i modelli AutoML
I seguenti consigli si applicano ai set di dati utilizzati per addestrare i modelli AutoML.
- Utilizza ogni etichetta almeno 200 volte nel set di dati di addestramento.
- Annota ogni occorrenza delle entità che vuoi che il modello identifichi.
File di input
I tipi di file di input per l'estrazione delle entità devono essere JSON Lines. Il formato, i nomi dei campi e i tipi di valore per i file JSON Lines sono determinati da un file schema, ovvero file YAML accessibili pubblicamente.
Puoi scaricare il file dello schema per l'estrazione delle entità dalla seguente
posizione Cloud Storage:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_extraction_io_format_1.0.0.yaml.
L'esempio seguente mostra come utilizzare lo schema per creare il tuo
proprio file JSON Lines. L'esempio include interruzioni di riga per favorire la leggibilità. Nei file JSON, includi gli a capo solo dopo ogni documento. Il campo dataItemResourceLabels
specifica, ad esempio, ml_use
ed è facoltativo.
{ "textSegmentAnnotations": [ { "startOffset":number, "endOffset":number, "displayName": "label" }, ... ], "textContent": "inline_text", "dataItemResourceLabels": { "aiplatform.googleapis.com/ml_use": "training|test|validation" } } { "textSegmentAnnotations": [ { "startOffset":number, "endOffset":number, "displayName": "label" }, ... ], "textGcsUri": "gcs_uri_to_file", "dataItemResourceLabels": { "aiplatform.googleapis.com/ml_use": "training|test|validation" } }
Puoi anche aggiungere annotazioni ai documenti utilizzando la console Google Cloud. Crea un
file righe JSON contenente solo i contenuti (senza il campo textSegmentAnnotations
);
i documenti vengono caricati su Vertex AI senza alcuna annotazione.