Preparazione dei dati di addestramento

AutoML Translation consente di addestrare modelli personalizzati utilizzando coppie di frasi corrispondenti nelle lingue di origine e di destinazione. Tratta ogni coppia di frasi come un elemento di addestramento indipendente, senza presumere alcuna correlazione tra coppie separate.

Le coppie di frasi utilizzate per addestrare il modello personalizzato devono essere in formato separato da tabulazioni (.tsv) o Translation Memory eXchange (.tmx). Puoi raggruppare più file .tsv e .tmx in un file con valori separati da virgole (.csv). Puoi importare singoli file .tsv o .tmx utilizzando la console Google Cloud. Se utilizzi l'API AutoML, puoi utilizzare solo i file .csv.

Le coppie di frasi vengono sempre deduplicate in tutte le coppie di frasi importate. Una coppia di frasi è un duplicato di un'altra quando la frase di origine corrisponde a un'altra. Inoltre, AutoML Translation non ti consente di importare file con gli stessi contenuti.

Per un elenco delle combinazioni di lingue supportate, consulta la pagina Supporto delle lingue per i modelli personalizzati.

Suddivisione dati

AutoML Translation utilizza le coppie di frasi che fornisci per addestrare, convalidare e testare il tuo modello personalizzato.

  • TRAIN: utilizza sentence pairs per addestrare il modello.
  • VALIDATION: utilizza sentence pairs per convalidare i risultati restituiti dal modello durante l'addestramento.
  • TEST: utilizza sentence pairs per verificare i risultati del modello dopo l'addestramento.

Puoi controllare le coppie di frasi utilizzate da AutoML Translation per ogni scopo caricando file separati per i set di addestramento, convalida e test. Se non specifichi esplicitamente i file da utilizzare per questi tre scopi, AutoML Translation suddivide automaticamente le coppie di frasi in tre insiemi. AutoML Translation utilizza circa l'80% dei tuoi dati per l'addestramento, il 10% per la convalida e il 10% per i test. AutoML Translation suddivide in modo casuale i dati in tre set. Puoi avere un massimo di 10.000 coppie di frasi ciascuna per i set di convalida e test. Dopo 10.000 coppie, le coppie di frasi vengono trasferite al set di addestramento.

Se esegui più importazioni dei dati nello stesso set di dati, puoi specificare manualmente la suddivisione dei dati per un'importazione e utilizzare la suddivisione automatica per un'altra. I dati vengono sempre ribilanciati rispetto alla divisione manuale dopo ogni importazione ed eliminazione dei file.

Requisiti dei dati

I dati di addestramento devono essere conformi ai seguenti requisiti:

  • Se consenti ad AutoML Translation di suddividere automaticamente i dati, devi inviare almeno 1000 coppie di frasi per addestrare un modello personalizzato.
  • Se suddividi manualmente i dati, devi fornire almeno tre coppie di frasi per il set TRAIN e almeno 100 coppie ciascuna per i set VALIDATION e TEST.
  • Non puoi fornire più di 10.000 coppie di frasi ciascuna per il set VALIDATION o TEST.
  • Il set di dati non può superare il numero massimo di 15 milioni di coppie di frasi.

Consigli sui dati

I seguenti consigli possono aiutarti a migliorare la qualità del tuo set di dati di addestramento:

  • Utilizza almeno 5000 coppie di frasi per TRAIN, 500 coppie di frasi per VALIDATION e 500 coppie di frasi per TEST. Detto questo, utilizza più dati, se possibile. Avere più dati per il set TRAIN aiuta il modello ad apprendere i pattern e disporre di più dati per il set VALIDATION e TEST consente di verificare che il modello possa essere generalizzato per una più ampia gamma di scenari nel tuo dominio.
  • Usa frasi di massimo 200 parole. AutoML Translation potrebbe eliminare le coppie di frasi più grandi. Per ulteriori informazioni, consulta la sezione Problemi di importazione.
  • Risolvi i problemi comuni relativi ai dati. Per ulteriori informazioni, consulta la sezione "Pulire i dati disordinati" nella guida per i principianti sulla preparazione dei dati.

Valori delimitati da tabulazioni (.tsv)

AutoML Translation supporta file separati da tabulazioni in cui ogni riga ha questo formato:

  • Source sentence scheda Translated sentence

Ad esempio:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Tutto il testo in un file .tsv deve essere in testo normale. Se il testo include tag HTML o altro markup, AutoML Translation considera il markup come testo normale.

I dati di origine delimitati da tabulazioni non includono codici di lingua per identificare le lingue di origine e di destinazione. Quando descrivi il modello da addestrare, devi identificare i codici lingua di origine e di destinazione. AutoML Translation interpreta il primo segmento come lingua di origine, il secondo come destinazione. Nell'esempio precedente, la fonte è l'inglese e il target è il tedesco. 

Memoria eXchange (.tmx)

Translation Memory eXchange (TMX) è un formato XML standard per fornire frasi di traduzione di origine e di destinazione. AutoML Translation supporta i file di input in un formato basato su TMX versione 1.4. Questo esempio illustra la struttura richiesta:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

L'elemento <header> di un file .tmx in formato corretto deve identificare la lingua di origine utilizzando l'attributo srclang e ogni elemento <tuv> deve identificare la lingua del testo contenuto utilizzando l'attributo xml:lang.

Tutti gli elementi <tu> devono contenere una coppia di elementi <tuv> con le stesse lingue di origine e di destinazione. Se un elemento <tu> contiene più di due elementi <tuv>, Translation AutoML elabora solo il primo <tuv> corrispondente alla lingua di origine e il primo corrisponde alla lingua di destinazione, ignorando il resto. Se un elemento <tu> non ha una coppia corrispondente di elementi <tuv>, AutoML Translation ignora l'elemento <tu> non valido.

AutoML Translation rimuove i tag di markup da un elemento <seg> prima di elaborarlo. Se un elemento <tuv> contiene più di un elemento <seg>, Translation AutoML concatena il testo in un singolo elemento con uno spazio tra di loro.

Se il file contiene tag XML diversi da quelli mostrati sopra, AutoML Translation li ignora.

Se il file non è conforme al formato XML e TMX corretto, ad esempio se manca un tag finale o un elemento <tmx>, AutoML Translation ne interrompe l'elaborazione. AutoML Translation interrompe anche l'elaborazione se salta più di 1024 elementi <tu> non validi.

Valori separati da virgole (.csv)

Per caricare coppie di frasi utilizzando l'API AutoML, crei un file con valori separati da virgole (.csv) che identifica i file .tsv e .tmx da utilizzare e che può anche indicare quali coppie utilizzare per addestramento, convalida e test. Il file .csv può avere qualsiasi nome file, deve essere codificato in UTF-8 e deve terminare con un'estensione .csv. Il file ha una riga per ogni file .tsv o .tmx che stai caricando, con due colonne in ogni riga:

  • A quale set assegnare le coppie di frasi in questo file. Questo campo è facoltativo e può essere uno dei seguenti valori:

    • TRENO
    • CONVALIDA
    • TEST
    • ASSEGNAZIONE ANNULLATA

      Se un set di dati è specificato come UNASSIGNED, AutoML Translation lo divide automaticamente per garantire che i contenuti di addestramento, convalida e test siano sufficienti.

  • Il percorso completo di un documento .tsv o .tmx contenente coppie di frasi.

Ad esempio, nel file .csv potresti avere le seguenti caratteristiche:

TRAIN,gs://my-project-vcm/csv/en-fr-train.tsv
VALIDATION,gs://my-project-vcm/csv/en-fr-validation.tsv
TEST,gs://my-project-vcm/csv/en-fr-test.tsv