Prepara i dati di addestramento testo per l'estrazione delle entità

Questa pagina descrive come preparare i dati di testo da utilizzare in un set di dati Vertex AI per addestrare un modello di estrazione di entità.

I dati di addestramento per l'estrazione delle entità sono costituiti da documenti annotati con etichette che identificano i tipi di entità che vuoi che il modello identifichi. Ad esempio, potresti creare un modello di estrazione delle entità per identificare la terminologia specializzata nei documenti legali o nei brevetti. Le annotazioni specificano le posizioni delle entità che stai etichettando e le etichette stesse.

Se stai annotando documenti strutturati o semistrutturati per un set di dati utilizzato per addestrare modelli AutoML, come fatture o contratti, Vertex AI può considerare la posizione di un'annotazione sulla pagina come fattore che contribuisce all'etichetta corretta. Ad esempio, un contratto immobiliare ha una data di accettazione e una di chiusura. Vertex AI può imparare a distinguere le entità in base alla posizione spaziale dell'annotazione.

Requisiti dei dati

  • Devi fornire almeno 50 e non più di 100.000 documenti per l'addestramento.
  • Devi fornire almeno 1 e non più di 100 etichette univoche per annotare le entità che vuoi estrarre.
  • Puoi utilizzare un'etichetta per annotare tra 1 e 10 parole.
  • I nomi delle etichette possono contenere da 2 a 30 caratteri.
  • Puoi includere annotazioni nei file JSON Lines oppure aggiungere annotazioni in un secondo momento utilizzando la console Google Cloud dopo aver caricato i documenti.
  • Puoi includere documenti incorporati o file TXT di riferimento presenti nei bucket Cloud Storage.

Best practice per i dati di testo utilizzati per addestrare i modelli AutoML

I seguenti suggerimenti si applicano ai set di dati utilizzati per addestrare i modelli AutoML.

  • Utilizza ciascuna etichetta almeno 200 volte nel set di dati di addestramento.
  • Annota ogni occorrenza delle entità che vuoi che il modello identifichi.

File di input

I tipi di file di input per l'estrazione delle entità devono essere linee JSON. Il formato, i nomi dei campi e i tipi di valori dei file JSON Lines sono determinati da un file di schema, ovvero file YAML accessibili pubblicamente.

Puoi scaricare il file di schema per l'estrazione delle entità dal seguente percorso di Cloud Storage:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_extraction_io_format_1.0.0.yaml.

L'esempio seguente mostra come utilizzare lo schema per creare il tuo file JSON Lines. L'esempio include interruzioni di riga per una migliore leggibilità. Nei file JSON, includi le interruzioni di riga solo dopo ogni documento. Il campo dataItemResourceLabels specifica, ad esempio, ml_use ed è facoltativo.

{
    "textSegmentAnnotations": [
      {
        "startOffset":number,
        "endOffset":number,
        "displayName": "label"
      },
      ...
    ],
    "textContent": "inline_text",
    "dataItemResourceLabels": {
      "aiplatform.googleapis.com/ml_use": "training|test|validation"
    }
}
{
    "textSegmentAnnotations": [
      {
        "startOffset":number,
        "endOffset":number,
        "displayName": "label"
      },
      ...
    ],
    "textGcsUri": "gcs_uri_to_file",
    "dataItemResourceLabels": {
      "aiplatform.googleapis.com/ml_use": "training|test|validation"
    }
}

Puoi anche annotare i documenti utilizzando la console Google Cloud. Crea un file JSON Lines solo con contenuti (senza il campo textSegmentAnnotations); i documenti vengono caricati su Vertex AI senza annotazioni.