Preparazione dei dati di addestramento

AutoML Translation addestra i modelli personalizzati utilizzando coppie di frasi corrispondenti nelle lingue di origine e di destinazione. Tratta ogni coppia di frasi come un indipendente, senza presupporre alcuna correlazione tra in coppia.

Le coppie di frasi utilizzate per addestrare il modello personalizzato devono essere separate da tabulazioni (.tsv) o Translation Memory eXchange (.tmx). Tu può raggruppare più file .tsv e .tmx in un file .csv (comma-separated values) . Puoi importare singoli file .tsv o .tmx utilizzando nella console Google Cloud. Se utilizzi l'API AutoML, puoi utilizzare solo file .csv.

Le coppie di frasi vengono sempre deduplicate in tutte le coppie di frasi importate. Una coppia di frasi è un duplicato di un'altra quando la relativa frase di origine corrisponde a un'altra frase di origine. Inoltre, AutoML Translation consentono di importare file con gli stessi contenuti.

Per un elenco delle combinazioni di lingue supportate, vedi Supporto delle lingue per modelli di machine learning.

Suddivisione dati

AutoML Translation utilizza le coppie di frasi che fornisci per addestrare, convalidare e testare il tuo modello personalizzato.

  • TRAIN: utilizza sentence pairs per addestrare il modello.
  • VALIDATION: utilizza sentence pairs per convalidare i risultati restituiti dal modello durante l'addestramento.
  • TEST: utilizza sentence pairs per verificare i risultati del modello dopo l'addestramento.

Puoi controllare le coppie di frasi utilizzate da AutoML Translation per ogni scopo mediante il caricamento di file separati per l'addestramento, la convalida e e set di dati. Se non specifichi esplicitamente quali file utilizzare per questi tre AutoML Translation divide automaticamente le coppie di frasi in tre serie. AutoML Translation utilizza circa l'80% dei tuoi dati per l'addestramento, il 10% per la convalida e il 10% per i test. Traduzione AutoML suddivide in modo casuale i dati nei tre set. Puoi avere un massimo di 10.000 per il set di convalida e di test. Dopo 10.000 coppie, coppie di frasi vengono inviate al set di addestramento.

Se esegui più importazioni di dati nello stesso set di dati, puoi specificare manualmente la suddivisione dati per un'importazione e utilizzare la suddivisione automatica per un'altra. I dati vengono sempre riequilibrati rispetto alla suddivisione manuale dopo ogni importazione ed eliminazione del file.

Requisiti dei dati

I dati di addestramento devono essere conformi ai seguenti requisiti:

  • Se permetti ad AutoML Translation di suddividere automaticamente i dati, devi invia almeno 1000 coppie di frasi per addestrare un modello personalizzato.
  • Se suddividi manualmente i dati, devi fornire almeno tre frasi per l'insieme TRAIN e devi avere almeno 100 coppie di frasi ciascuna per i set VALIDATION e TEST.
  • Non puoi fornire più di 10.000 coppie di frasi ciascuna per VALIDATION impostato o TEST impostato.
  • Il set di dati non può superare il limite massimo di 15 milioni di coppie di frasi.

Consigli sui dati

I seguenti consigli possono aiutarti ad aumentare la qualità della formazione set di dati:

  • Utilizza almeno 5000 coppie di frasi per TRAIN e 500 coppie di frasi per VALIDATION e 500 coppie di frasi per TEST. Detto questo, utilizza più dati se possibile. Avere più dati per il set TRAIN aiuta il modello ad apprendere i pattern, e la presenza di più dati per i set VALIDATION e TEST consente di verificare che può essere generalizzato per una gamma più ampia di scenari nel dominio.
  • Mantieni le frasi di massimo 200 parole. AutoML Translation potrebbe diminuire coppie di frasi più grandi. Per ulteriori informazioni, consulta la sezione Importazione .
  • Risolvere i problemi più comuni relativi ai dati. Per ulteriori informazioni, consulta la sezione "Pulizia dei dati disordinati" nella sezione Dati dei modelli guida per nuovi utenti.

Valori delimitati da tabulazioni (.tsv)

AutoML Translation supporta i file separati da tabulazioni, dove ogni riga ha il seguente formato:

  • Source sentence scheda Translated sentence

Ad esempio:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Tutto il testo di un file .tsv deve essere in formato di testo normale. Se il testo include Tag HTML o altro markup, AutoML Translation tratta il markup come testo normale.

I dati di origine delimitati da tabulazioni non includono codici lingua per identificare lingue di origine e di destinazione. Devi identificare i codici lingua di origine e di destinazione quando descrivi il modello da addestrare. AutoML Translation interpreta il primo segmento come lingua di origine e il secondo come target. Nell'esempio precedente, la lingua di origine è l'inglese e quella di destinazione è il tedesco. 

eXchange della memoria di traduzione (.tmx)

Translation Memory eXchange (TMX) è un formato XML standard per fornire origine e destinazione di traduzione automatica di frasi. AutoML Translation supporta i file di input in un formato in base a TMX versione 1.4. Questo esempio illustra la struttura richiesta:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

L'elemento <header> l'elemento di un file .tmx in un formato corretto deve identificare l'origine lingua utilizzando l'attributo srclang e ogni <tuv> deve identificare la lingua del testo contenuto utilizzando l'attributo xml:lang.

Tutto <tu> devono contenere una coppia di <tuv> con la stessa origine e lingue di destinazione. Se un <tu> l'elemento contiene più di due elementi <tuv> elementi, AutoML Translation elabora solo il primo <tuv> che corrispondono alla fonte e la prima corrispondente alla lingua di destinazione, ignorando il resto. Se &lt;tu&gt; l'elemento non ha una coppia corrispondente di <tuv> AutoML Translation ignora l'elemento <tu> non valido .

AutoML Translation rimuove i tag di markup da un oggetto <seg> elemento prima di elaborarlo. Se un <tuv> l'elemento contiene più di un <seg> , AutoML Translation concatena il testo in un singolo elemento con uno spazio tra che li rappresentano.

Se il file contiene tag XML diversi da quelli mostrati in precedenza, AutoML Translation li ignora.

Se il file non è conforme al corretto formato XML e TMX, ad esempio se manca un tag finale o un elemento <tmx>, AutoML Translation ne interrompe l'elaborazione. AutoML Translation interrompe anche l'elaborazione se salta più di 1024 non valido <tu> elementi.

Valori separati da virgole (.csv)

Per caricare coppie di frasi utilizzando l'API AutoML, devi creare un valore separato da virgole (.csv) che identifica i file .tsv e .tmx da utilizzare e che possono anche indicare quali coppie usare per l'addestramento, la convalida e il test. La Il file .csv può avere qualsiasi nome, deve avere la codifica UTF-8 e deve terminare con l'estensione .csv. Il file contiene una riga per ogni file .tsv o .tmx caricato, con due colonne in ogni riga:

  • A quale set assegnare le coppie di frasi in questo file. Questo campo è facoltativo e può essere uno di questi valori:

    • ADDESTRAMENTO
    • CONVALIDA
    • TEST
    • ASSEGNAZIONE ANNULLATA

      Se un set di dati viene specificato come NON ASSEGNATO, AutoML Translation la divide automaticamente per garantire che ci sia abbastanza addestramento, convalida e verifica dei contenuti.

  • Il percorso completo di un documento .tsv o .tmx contenente coppie di frasi.

Ad esempio, il file .csv potrebbe contenere quanto segue:

TRAIN,gs://my-project-vcm/csv/en-fr-train.tsv
VALIDATION,gs://my-project-vcm/csv/en-fr-validation.tsv
TEST,gs://my-project-vcm/csv/en-fr-test.tsv