Preparazione dei dati di addestramento

Per addestrare il tuo modello personalizzato, fornisci esempi rappresentativi del tipo di documenti da analizzare, etichettati in modo che AutoML Natural Language etichetti documenti simili. La qualità dei dati di addestramento ha un impatto significativo sull'efficacia del modello creato e, di conseguenza, sulla qualità delle previsioni restituite da quel modello.

Raccolta ed etichettatura dei documenti di addestramento

Il primo passaggio consiste nel raccogliere un insieme eterogeneo di documenti di addestramento che riflettano l'intervallo di documenti che deve essere gestito dal modello personalizzato. I passaggi di preparazione per i documenti di addestramento variano a seconda che tu stia addestrando un modello per la classificazione, l'estrazione delle entità o l'analisi del sentiment.

Importazione dei documenti di addestramento

Puoi importare i dati di addestramento in AutoML Natural Language utilizzando un file CSV che elenca i documenti e, facoltativamente, include le etichette delle categorie o i valori di sentiment. AutoML Natural Language crea un set di dati dai documenti elencati.

Dati di addestramento e di valutazione

AutoML Natural Language suddivide i documenti di addestramento in tre set per addestrare un modello: un set di addestramento, un set di convalida e un set di test.

AutoML Natural Language utilizza il set di addestramento per creare il modello. Il modello prova più algoritmi e parametri durante la ricerca di pattern nei dati di addestramento. Poiché il modello identifica i pattern, utilizza il set di convalida per testare algoritmi e pattern. AutoML Natural Language sceglie gli algoritmi e i pattern con le migliori prestazioni tra quelli identificati durante la fase di addestramento.

Dopo aver identificato gli algoritmi e i pattern con le migliori prestazioni, AutoML Natural Language li applica al set di test per verificare il tasso di errore, la qualità e l'accuratezza.

Per impostazione predefinita, AutoML Natural Language suddivide i dati di addestramento in modo casuale nei tre insiemi:

  • L'80% dei documenti viene utilizzato per l'addestramento
  • Il 10% dei documenti viene utilizzato per la convalida (ottimizzazione iperparametri e/o per decidere quando interrompere l'addestramento)
  • Il 10% dei documenti è riservato ai test (non viene utilizzato durante l'addestramento)

Se vuoi specificare a quale set deve appartenere ogni documento nei tuoi dati di addestramento, puoi assegnare esplicitamente i documenti ai set nel file CSV, come descritto nella sezione successiva.

Creazione di un file CSV di importazione

Dopo aver raccolto tutti i documenti di addestramento, crea un file CSV che li elenca tutti. Il file CSV può avere qualsiasi nome, deve avere la codifica UTF-8 e deve terminare con un'estensione .csv. Deve essere archiviato nel bucket Cloud Storage associato al progetto.

Il file CSV ha una riga per ogni documento di addestramento, con le seguenti colonne per riga:

  1. Quale insieme a cui assegnare i contenuti di questa riga. Questa colonna è facoltativa e può avere uno dei seguenti valori:

    • TRAIN: utilizza document per addestrare il modello.
    • VALIDATION: utilizza document per convalidare i risultati restituiti dal modello durante l'addestramento.
    • TEST: utilizza document per verificare i risultati del modello dopo l'addestramento.

    Se includi valori in questa colonna per specificare gli insiemi, ti consigliamo di identificare almeno il 5% dei dati per ogni categoria. L'utilizzo di meno del 5% dei dati per addestramento, convalida o test può produrre risultati inaspettati e modelli inefficaci.

    Se non includi valori in questa colonna, fai iniziare ogni riga con una virgola per indicare la prima colonna vuota. AutoML Natural Language suddivide automaticamente i documenti in tre set, utilizzando circa l'80% dei dati per l'addestramento, il 10% per la convalida e il 10% per i test (fino a 10.000 coppie per convalida e test).

  2. I contenuti da classificare. Questa colonna contiene l'URI Cloud Storage del documento. Gli URI Cloud Storage sono sensibili alle maiuscole.

    Per la classificazione e l'analisi del sentiment, il documento può essere un file di testo, un file PDF, un file TIFF o un file ZIP; per l'estrazione di entità, è un file JSONL.

    Per la classificazione e l'analisi del sentiment, il valore in questa colonna può essere riportato tra virgolette, anziché come URI Cloud Storage.

  3. Per i set di dati di classificazione, puoi facoltativamente includere un elenco separato da virgole di etichette che identificano il modo in cui è classificato il documento. Le etichette devono iniziare con una lettera e contenere solo lettere, numeri e trattini bassi. Puoi includere fino a 20 etichette per ogni documento.

    Per i set di dati di analisi del sentiment, puoi facoltativamente includere un numero intero che indichi il valore di sentiment per il contenuto. Il valore del sentiment va da 0 (fortemente negativo) a un valore massimo di 10 (fortemente positivo).

Ad esempio, il file CSV per un set di dati di classificazione con più etichette potrebbe avere:

TRAIN, gs://my-project-lcm/training-data/file1.txt,Sports,Basketball
VALIDATION, gs://my-project-lcm/training-data/ubuntu.zip,Computers,Software,Operating_Systems,Linux,Ubuntu
TRAIN, gs://news/documents/file2.txt,Sports,Baseball
TEST, "Miles Davis was an American jazz trumpeter, bandleader, and composer.",Arts_Entertainment,Music,Jazz
TRAIN,gs://my-project-lcm/training-data/astros.txt,Sports,Baseball
VALIDATION,gs://my-project-lcm/training-data/mariners.txt,Sports,Baseball
TEST,gs://my-project-lcm/training-data/cubs.txt,Sports,Baseball

Errori comuni relativi ai file CSV

  • Utilizzo di caratteri Unicode nelle etichette. Ad esempio, i caratteri giapponesi non sono supportati.
  • Utilizzare spazi e caratteri non alfanumerici nelle etichette.
  • Righe vuote.
  • Colonne vuote (righe con due virgole successive).
  • Racchiuso tra virgolette per il testo incorporato che include virgole.
  • Uso errato delle lettere maiuscole nei percorsi di Cloud Storage.
  • Controllo dell'accesso non corretto configurato per i tuoi documenti. Il tuo account di servizio deve disporre di un accesso in lettura o superiore oppure i file devono essere leggibili pubblicamente.
  • Riferimenti a file non di testo, ad esempio i file JPEG. Allo stesso modo, i file che non sono file di testo, ma che sono stati rinominati con un'estensione di testo, causeranno un errore.
  • L'URI di un documento punta a un bucket diverso da quello del progetto corrente. È possibile accedere solo ai file nel bucket del progetto.
  • File non in formato CSV.

Creazione di un file ZIP di importazione

Per i set di dati di classificazione, puoi importare i documenti di addestramento utilizzando un file ZIP. All'interno del file ZIP, crea una cartella per ogni valore di etichetta o sentiment e salva ogni documento all'interno della cartella corrispondente all'etichetta o al valore da applicare al documento. Ad esempio, il file ZIP per un modello che classifica la corrispondenza aziendale potrebbe avere questa struttura:

correspondence.zip
    transactional
        letter1.pdf
        letter2.pdf
        letter5.pdf
    persuasive
        letter3.pdf
        letter7.pdf
        letter8.pdf
    informational
        letter6.pdf
    instructional
        letter4.pdf
        letter9.pdf

AutoML Natural Language applica i nomi delle cartelle come etichette ai documenti al loro interno. Per un set di dati di analisi del sentiment, i nomi delle cartelle sono i valori del sentiment:

sentiment.zip
    0
        document4.txt
    1
        document3.txt
        document1.txt
        document5.txt
    2
        document2.txt
        document6.txt
        document8.txt
        document9.txt
    3
        document7.txt

Passaggi successivi