Prepara i dati di addestramento del testo per l'estrazione delle entità

Questa pagina descrive come preparare i dati di testo da utilizzare in un set di dati di Vertex AI per addestrare un modello di estrazione delle entità.

I dati di addestramento per l'estrazione delle entità sono costituiti da documenti annotati con le etichette che identificano i tipi di entità che vuoi che il tuo modello identifichi. Ad esempio, potresti creare un modello di estrazione delle entità per identificare la terminologia specializzata in documenti legali o brevetti. Le annotazioni specificano le posizioni delle entità che stai etichettando e le etichette stesse.

Se stai annotando documenti strutturati o semistrutturati per un set di dati utilizzato per addestrare modelli AutoML, ad esempio fatture o contratti, Vertex AI può considerare la posizione di un'annotazione nella pagina come un fattore che contribuisce alla sua etichetta corretta. Ad esempio, un contratto immobiliare ha sia una data di accettazione che una data di chiusura. Vertex AI può imparare a distinguere le entità in base alla posizione spaziale dell'annotazione.

Requisiti dei dati

  • Devi fornire almeno 50 e non più di 100.000 documenti di addestramento.
  • Devi fornire almeno 1 e non più di 100 etichette univoche per annotare le entità che vuoi estrarre.
  • Puoi utilizzare un'etichetta per annotare da 1 a 10 parole.
  • I nomi delle etichette possono contenere da 2 a 30 caratteri.
  • Puoi includere annotazioni nei file JSON Lines oppure aggiungere annotazioni in un secondo momento utilizzando la console Google Cloud dopo aver caricato i documenti.
  • Puoi includere documenti incorporati o file TXT di riferimento che si trovano nei bucket Cloud Storage.

Best practice per i dati di testo utilizzati per addestrare i modelli AutoML

I seguenti suggerimenti si applicano ai set di dati utilizzati per addestrare i modelli AutoML.

  • Utilizza ogni etichetta almeno 200 volte nel set di dati di addestramento.
  • Annota ogni occorrenza di entità che vuoi che il modello identifichi.

File di input

I tipi di file di input per l'estrazione delle entità devono essere righe JSON. Il formato, i nomi dei campi e i tipi di valori per i file JSON Lines sono determinati da un file di schema, ovvero file YAML accessibili pubblicamente.

Puoi scaricare il file di schema per l'estrazione delle entità dal seguente percorso di Cloud Storage:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_extraction_io_format_1.0.0.yaml.

L'esempio seguente mostra come utilizzare lo schema per creare il tuo file JSON Lines. L'esempio include interruzioni di riga per migliorare la leggibilità. Nei file JSON, includi interruzioni di riga solo dopo ogni documento. Il campo dataItemResourceLabels specifica, ad esempio, ml_use ed è facoltativo.

{
    "textSegmentAnnotations": [
      {
        "startOffset":number,
        "endOffset":number,
        "displayName": "label"
      },
      ...
    ],
    "textContent": "inline_text",
    "dataItemResourceLabels": {
      "aiplatform.googleapis.com/ml_use": "training|test|validation"
    }
}
{
    "textSegmentAnnotations": [
      {
        "startOffset":number,
        "endOffset":number,
        "displayName": "label"
      },
      ...
    ],
    "textGcsUri": "gcs_uri_to_file",
    "dataItemResourceLabels": {
      "aiplatform.googleapis.com/ml_use": "training|test|validation"
    }
}

Puoi anche aggiungere annotazioni ai documenti utilizzando la console Google Cloud. Crea un file JSON Lines solo con contenuti (senza il campo textSegmentAnnotations); i documenti vengono caricati su Vertex AI senza alcuna annotazione.