Questa pagina è stata tradotta dall'API Cloud Translation.

Preparare i dati di addestramento del testo per l'estrazione delle entità

A partire dal 15 settembre 2024, potrai personalizzare solo gli scopi di classificazione, estrazione di entità e analisi del sentiment passando ai prompt e alla regolazione di Vertex AI Gemini. L'addestramento o l'aggiornamento dei modelli per Vertex AI AutoML per gli scopi di classificazione del testo, estrazione di entità e analisi del sentiment non sarà più disponibile. Puoi continuare a utilizzare i modelli di testo AutoML di Vertex AI esistenti fino al 15 giugno 2025. Per un confronto tra AutoML Text e Gemini, consulta Gemini per gli utenti di AutoML Text. Per saperne di più su come Gemini offre un'esperienza utente migliorata tramite funzionalità di prompt avanzate, consulta Introduzione alla regolazione. Per iniziare a utilizzare l'ottimizzazione, consulta Ottimizzazione dei modelli di testo di Gemini

Questa pagina descrive come preparare i dati di testo da utilizzare in un set di dati Vertex AI per addestrare un modello di estrazione di entità.

I dati di addestramento per l'estrazione delle entità consistono in documenti annotati con le etichette che identificano i tipi di entità che vuoi che il modello identifichi. Ad esempio, potresti creare un modello di estrazione di entità per identificare la terminologia specializzata in documenti legali o brevetti. Le annotazioni specificano le posizioni delle entità che stai etichettando e le etichette stesse.

Se annoti documenti strutturati o semistrutturati per un set di dati utilizzato per addestrare i modelli AutoML, come fatture o contratti, Vertex AI può considerare la posizione di un'annotazione sulla pagina come un fattore che contribuisce alla sua etichetta corretta. Ad esempio, un contratto immobiliare ha sia una data di accettazione sia una data di chiusura. Vertex AI può imparare a distinguere le entità in base alla posizione spaziale dell'annotazione.

Requisiti dei dati

Devi fornire almeno 50 e non più di 100.000 documenti di addestramento.
Devi fornire almeno 1 etichetta univoca e non più di 100 per annotare le entità che vuoi estrarre.
Puoi utilizzare un'etichetta per annotare da 1 a 10 parole.
I nomi delle etichette possono avere una lunghezza compresa tra 2 e 30 caratteri.
Puoi includere le annotazioni nei file JSON Lines oppure aggiungerle più tardi utilizzando la Google Cloud console dopo aver caricato i documenti.
Puoi includere documenti in linea o file TXT di riferimento che si trovano nei bucket Cloud Storage.

Best practice per i dati di testo utilizzati per addestrare i modelli AutoML

I seguenti consigli si applicano ai set di dati utilizzati per addestrare i modelli AutoML.

Utilizza ogni etichetta almeno 200 volte nel set di dati di addestramento.
Annota ogni occorrenza delle entità che vuoi che il modello identifichi.

File di input

I tipi di file di input per l'estrazione delle entità devono essere JSON Lines. Il formato, i nomi dei campi e i tipi di valore per i file JSON Lines sono determinati da un file schema, ovvero file YAML accessibili pubblicamente.

Puoi scaricare il file dello schema per l'estrazione delle entità dalla seguente posizione Cloud Storage:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_extraction_io_format_1.0.0.yaml.

L'esempio seguente mostra come utilizzare lo schema per creare il tuo file JSON Lines. L'esempio include interruzioni di riga per favorire la leggibilità. Nei file JSON, includi gli a capo solo dopo ogni documento. Il campo dataItemResourceLabels specifica, ad esempio, ml_use ed è facoltativo.

{
    "textSegmentAnnotations": [
      {
        "startOffset":number,
        "endOffset":number,
        "displayName": "label"
      },
      ...
    ],
    "textContent": "inline_text",
    "dataItemResourceLabels": {
      "aiplatform.googleapis.com/ml_use": "training|test|validation"
    }
}
{
    "textSegmentAnnotations": [
      {
        "startOffset":number,
        "endOffset":number,
        "displayName": "label"
      },
      ...
    ],
    "textGcsUri": "gcs_uri_to_file",
    "dataItemResourceLabels": {
      "aiplatform.googleapis.com/ml_use": "training|test|validation"
    }
}

Puoi anche aggiungere annotazioni ai documenti utilizzando la Google Cloud console. Crea un file righe JSON contenente solo i contenuti (senza il campo textSegmentAnnotations); i documenti vengono caricati su Vertex AI senza alcuna annotazione.

Avanti

Crea set di dati

Preparare i dati di addestramento del testo per l'estrazione delle entità Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Requisiti dei dati

Best practice per i dati di testo utilizzati per addestrare i modelli AutoML

File di input

Preparare i dati di addestramento del testo per l'estrazione delle entità