Prepara i dati di addestramento
Cloud Translation addestra modelli personalizzati utilizzando coppie di segmenti corrispondenti nel lingue di origine e di destinazione. Ogni coppia di segmenti viene trattata come una senza presupporre alcuna correlazione tra coppie separate.
Le coppie di segmenti utilizzate per addestrare il modello personalizzato devono essere nel
valori separati da tabulazioni (.tsv
) o nel formato eXchange della memoria di traduzione (.tmx
).
Per saperne di più, consulta la sezione Preparare traduzioni di esempio.
Le coppie di segmenti vengono sempre deduplicate in tutte le coppie importate. Una coppia di segmenti è un duplicato di un altro quando il segmento di origine corrisponde a un'altra origine in base al segmento. Cloud Translation non consente di importare file con lo stesso contenuti.
Suddivisione dati
AutoML Translation utilizza le coppie di segmenti fornite per per diversi scopi durante la creazione del modello personalizzato:
- Addestra: coppie di segmenti per addestrare il modello. Alloca la maggior parte dei tuoi dati per per questo scopo.
- Convalida - Coppie di segmenti per convalidare i risultati restituiti dal modello durante l'addestramento.
- Test: coppie di segmenti per generare le metriche di valutazione finale del tuo un modello di machine learning. Indica le prestazioni del modello in produzione.
Puoi controllare le coppie di segmenti utilizzate da AutoML Translation per ogni scopo mediante il caricamento di file separati per l'addestramento, la convalida e e set di dati. Se non specifichi esplicitamente quali file utilizzare per questi tre AutoML Translation divide automaticamente le coppie di segmenti in tre serie. AutoML Translation utilizza circa l'80% dei tuoi dati per l'addestramento, il 10% per la convalida e il 10% per i test. Traduzione AutoML assegna le coppie di segmenti in modo casuale nei tre insiemi. Puoi avere un massimo di di 10.000 coppie di segmenti ciascuna per i set di convalida e test. Dopo 10.000 le coppie di segmenti vengono inviate al set di addestramento.
Se esegui più importazioni di dati nello stesso set di dati, puoi specificare manualmente la suddivisione dati per un'importazione e utilizzare la suddivisione automatica per un'altra. I dati sono vengono sempre ribilanciati rispetto alla divisione manuale dopo ogni importazione l'eliminazione dei file.
Requisiti dei dati
I dati di addestramento devono essere conformi ai seguenti requisiti:
- Se permetti ad AutoML Translation di suddividere automaticamente i dati, devi invia almeno 1000 coppie di segmenti per addestrare un modello personalizzato.
- Se suddividi manualmente i dati, devi fornire almeno tre segmenti
per l'insieme
TRAIN
e devi avere almeno 100 coppie di segmenti ciascuna per i setVALIDATION
eTEST
. - Devi fornire almeno tre coppie di segmenti per l'insieme
TRAIN
e deve avere almeno 100 coppie di segmenti ciascuna perVALIDATION
eTEST
e set di dati. - Non puoi fornire più di 10.000 coppie di segmenti ciascuna per
VALIDATION
eTEST
set. - Il set di dati non può superare il limite massimo di 15 milioni di coppie di segmenti.
Suggerimenti sui dati
I seguenti consigli possono aiutarti ad aumentare la qualità del tuo modello:
- Utilizza almeno 5000 coppie di segmenti per
TRAIN
, 500 coppie di segmenti perVALIDATION
e 500 coppie di segmenti perTEST
. Detto questo, utilizza più dati se possibile. Avere più dati per il setTRAIN
aiuta il modello ad apprendere i pattern, e la presenza di più dati per i setVALIDATION
eTEST
consente di verificare che può essere generalizzato per una gamma più ampia di scenari nel dominio. - Mantieni i segmenti di circa 200 parole o meno. AutoML Translation potrebbe diminuire coppie di segmenti più grandi di questo valore. Per ulteriori informazioni, consulta la sezione Importazione .
- Risolvere i problemi comuni relativi ai dati di origine, come descritto nella sezione "Pulizia dei dati disordinati" parte nei dati dei modelli della panoramica.