Preparare i dati di addestramento

Cloud Translation addestra i modelli personalizzati utilizzando coppie di segmenti corrispondenti nelle lingue di origine e di destinazione. Tratta ogni coppia di segmenti come un elemento di addestramento indipendente, senza assumere alcuna correlazione tra coppie separate.

Le coppie di segmenti utilizzate per addestrare il modello personalizzato devono essere in formato con valori delimitati da tabulazioni (.tsv) o con memoria di traduzione exchange (.tmx). Puoi importare singoli file TSV o TMX utilizzando la console Google Cloud.

Le coppie di segmenti vengono sempre deduplicate in tutte le coppie importate. Una coppia di segmenti è un duplicato di un'altra quando il segmento di origine corrisponde a un altro. Cloud Translation non ti consente di importare file con gli stessi contenuti.

Per un elenco delle combinazioni di lingue supportate, consulta la pagina Supporto delle lingue per i modelli personalizzati.

Suddivisione dati

AutoML Translation utilizza le coppie di segmenti che fornisci per scopi diversi durante la creazione del tuo modello personalizzato:

  • Addestra: segmenta le coppie per addestrare il modello. Allocare la maggior parte dei tuoi dati a questo scopo.
  • Convalida: accoppia le coppie di segmenti per convalidare i risultati restituiti dal modello durante l'addestramento.
  • Test: segmenta le coppie per generare le metriche di valutazione finale del modello. Indica le prestazioni possibili del modello in produzione.

Puoi controllare le coppie di segmenti utilizzate da AutoML Translation per ogni scopo caricando file separati per i set di addestramento, convalida e test. Se non specifichi esplicitamente i file da utilizzare per questi tre scopi, AutoML Translation suddivide automaticamente le coppie di segmenti in tre set. AutoML Translation utilizza circa l'80% dei tuoi dati per l'addestramento, il 10% per la convalida e il 10% per i test. AutoML Translation assegna in modo casuale le coppie di segmenti ai tre set. Puoi avere un massimo di 10.000 coppie di segmenti ciascuna per i set di convalida e test. Dopo 10.000 coppie, le coppie di segmenti vengono trasferite al set di addestramento.

Se esegui più importazioni dei dati nello stesso set di dati, puoi specificare manualmente la suddivisione dei dati per un'importazione e utilizzare la suddivisione automatica per un'altra. I dati vengono sempre ribilanciati rispetto alla divisione manuale dopo ogni importazione ed eliminazione dei file.

Requisiti dei dati

I dati di addestramento devono essere conformi ai seguenti requisiti:

  • Se consenti ad AutoML Translation di suddividere automaticamente i dati, devi inviare almeno 1000 coppie di segmenti per addestrare un modello personalizzato.
  • Se suddividi manualmente i dati, devi fornire almeno tre coppie di segmenti per il set TRAIN e almeno 100 coppie di segmenti per i set VALIDATION e TEST.
  • Devi fornire almeno tre coppie di segmenti per il set TRAIN e devi averne almeno 100 per i set VALIDATION e TEST.
  • Non puoi fornire più di 10.000 coppie di segmenti ciascuna per i set VALIDATION e TEST.
  • Il set di dati non può superare il limite massimo di 15 milioni di coppie di segmenti.

Consigli sui dati

I seguenti consigli possono aiutarti a migliorare la qualità del modello:

  • Utilizza almeno 5000 coppie di segmenti per TRAIN, 500 coppie di segmenti per VALIDATION e 500 coppie di segmenti per TEST. Detto questo, utilizza più dati, se possibile. Avere più dati per il set TRAIN aiuta il modello ad apprendere i pattern e disporre di più dati per il set VALIDATION e TEST consente di verificare che il modello possa essere generalizzato per una più ampia gamma di scenari nel tuo dominio.
  • Mantenere i segmenti con un massimo di 200 parole. AutoML Translation potrebbe eliminare le coppie di segmenti più grandi. Per ulteriori informazioni, consulta la sezione Problemi di importazione.
  • Risolvi i problemi comuni relativi ai dati di origine, come descritto nella sezione "Pulire i dati disordinati" nella sezione Preparazione dei dati della panoramica.

Valori delimitati da Tab (TSV)

AutoML Translation supporta file separati da tabulazioni in cui ogni riga ha il seguente formato:

  • Source segment scheda Translated segment

Ad esempio:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Tutti i contenuti di un file TSV devono essere in testo normale. Se il testo include tag HTML o altro markup, AutoML Translation considera il markup come testo normale. Nell'esempio precedente, la fonte è l'inglese e il target è il tedesco.

Non includere una riga di intestazione con i codici lingua per identificare le lingue di origine e di destinazione. Specifica i codici lingua di origine e di destinazione durante l'addestramento di un modello.

Memoria eXchange (TMX)

TMX è un formato XML standard per fornire segmenti di traduzione di origine e di destinazione. AutoML Translation supporta i file di input in un formato basato su TMX versione 1.4. L'esempio seguente illustra la struttura richiesta:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

L'elemento <header> di un file TMX ben strutturato deve identificare la lingua di origine utilizzando l'attributo srclang e ogni elemento <tuv> deve identificare la lingua del testo contenuto utilizzando l'attributo xml:lang.

Tutti gli elementi <tu> devono contenere una coppia di elementi <tuv> con le stesse lingue di origine e di destinazione. Se un elemento <tu> contiene più di due elementi <tuv>, Translation AutoML elabora solo il primo <tuv> che corrisponde alla lingua di origine e il primo che corrisponde alla lingua di destinazione; ignora il resto. Se un elemento <tu> non ha una coppia di elementi <tuv> corrispondenti, AutoML Translation salta l'elemento <tu> non valido.

AutoML Translation rimuove i tag di markup da un elemento <seg> prima di elaborarlo. Se un elemento <tuv> contiene più di un elemento <seg>, Translation AutoML concatena il testo in un unico elemento con uno spazio tra di loro.

Se il file contiene tag XML diversi da quelli mostrati sopra, AutoML Translation li ignora.

Se il file non è conforme ai formati XML e TMX corretti, ad esempio se manca un tag finale o un elemento <tmx>, Traduzione AutoML interrompe l'elaborazione. AutoML Translation interrompe anche l'elaborazione se salta più di 1024 elementi <tu> non validi.