Prepara i dati di addestramento

Cloud Translation addestra i modelli personalizzati utilizzando coppie di segmenti corrispondenti nelle lingue di origine e di destinazione. Tratta ogni coppia di segmenti come un elemento di addestramento indipendente, senza assumere alcuna correlazione tra coppie separate.

Le coppie di segmenti utilizzate per addestrare il modello personalizzato devono essere nel formato valori separati da tabulazione (.tsv) o Translation Memory eXchange (.tmx). Per ulteriori informazioni, consulta Preparare traduzioni di esempio.

Le coppie di segmenti vengono sempre deduplicate in tutte le coppie importate. Una coppia di segmenti è un duplicato di un'altra quando il segmento di origine corrisponde a un altro segmento di origine. Cloud Translation non ti consente di importare file con gli stessi contenuti.

Suddivisione dati

AutoML Translation utilizza le coppie di segmenti che fornisci per scopi diversi durante la creazione del modello personalizzato:

  • Addestramento: segmenta le coppie per addestrare il modello. Assegna la maggior parte dei dati a questo scopo.
  • Convalida: segmenta le coppie per convalidare i risultati restituiti dal modello durante l'addestramento.
  • Test: segmenta le coppie per generare le metriche di valutazione finale del modello. Indica il possibile rendimento del modello in produzione.

Puoi controllare le coppie di segmenti utilizzate da AutoML Translation per ogni scopo caricando file separati per i set di addestramento, convalida e test. Se non specifichi esplicitamente i file da utilizzare per queste tre finalità, AutoML Translation suddivide automaticamente le coppie di segmenti in tre set. La traduzione AutoML utilizza circa l'80% dei dati per l'addestramento, il 10% per la convalida e il 10% per i test. AutoML Translation assegna in modo casuale le coppie di segmenti ai tre set. Puoi avere un massimo di 10.000 coppie di segmenti per i set di convalida e di test. Dopo 10.000 coppie, le coppie di segmenti vengono inviate al set di addestramento.

Se esegui più importazioni di dati nello stesso set di dati, puoi specificare manualmente la suddivisione dei dati per un'importazione e utilizzare la suddivisione automatica per un'altra. I dati vengono sempre riequilibrati rispetto alla suddivisione manuale dopo ogni importazione ed eliminazione del file.

Requisiti dei dati

I dati di addestramento devono essere conformi ai seguenti requisiti:

  • Se consenti ad AutoML Translation di suddividere automaticamente i dati, devi inviare almeno 1000 coppie di segmenti per addestrare un modello personalizzato.
  • Se dividi manualmente i dati, devi fornire almeno tre coppie di segmenti per il set TRAIN e devi avere almeno 100 coppie di segmenti per i set VALIDATION e TEST.
  • Devi fornire almeno tre coppie di segmenti per l'insieme TRAIN e almeno 100 coppie di segmenti per gli insiemi VALIDATION e TEST.
  • Non puoi fornire più di 10.000 coppie di segmenti per gli insiemi VALIDATION e TEST.
  • Il set di dati non può superare il massimo di 15 milioni di coppie di segmenti.

Consigli sui dati

I seguenti consigli possono aiutarti ad aumentare la qualità del tuo modello:

  • Utilizza almeno 5000 coppie di segmenti per TRAIN, 500 coppie di segmenti per VALIDATION e 500 coppie di segmenti per TEST. Detto questo, utilizza più dati se possibile. Avere più dati per l'insieme TRAIN aiuta il modello ad apprendere schemi, mentre avere più dati per gli insiemi VALIDATION e TEST aiuta a verificare che il modello possa essere generalizzato a una più ampia gamma di scenari nel tuo dominio.
  • Mantieni i segmenti di circa 200 parole o meno. AutoML Translation potrebbe eliminare le coppie di segmenti più grandi. Per ulteriori informazioni, consulta Problemi di importazione.
  • Risolvi i problemi comuni relativi ai dati di origine, come descritto nella sezione "Pulisci i dati disordinati" della sezione Preparazione dei dati della panoramica.

Passaggi successivi