Guida per nuovi utenti di AutoML Translation

AutoML Translation consente di creare modelli personalizzati (senza scrivere codice) personalizzati per i contenuti specifici del tuo dominio rispetto ai contenuti predefiniti modello di traduzione automatica neurale (NMT).

Immagina di gestire un servizio di reporting finanziario che ha l'opportunità di espandersi in nuovi paesi. Questi mercati richiedono che i tuoi dati finanziari documenti vengono tradotti in tempo reale. Invece di assumere personale finanziario bilingue o di stipulare un contratto con un traduttore esperto, entrambi a un prezzo elevato grazie all'esperienza nel dominio e all'esigenza di tempi di esecuzione rapidi, un modello personalizzato può aiutarti ad automatizzare i job di traduzione in modo scalabile.

Traduzione

Provalo

Se non hai mai utilizzato Google Cloud, crea un account per valutare in che modo Cloud Translation funziona nel mondo reale diversi scenari. I nuovi clienti ricevono anche 300 $ di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.

Prova Cloud Translation gratuitamente

Perché il machine learning (ML) è lo strumento giusto per questo problema?

Per la programmazione classica, il programmatore deve specificare istruzioni per il computer. Ma questo approccio basato su regole diventa rapidamente impossibile per la traduzione. Naturale lingua è complessa e anche la sua traduzione. La traduzione automatica è fatto quasi interamente con un approccio statistico, con enormi corpora paralleli che sostituiscevano gli esperti linguistici perfezionando manualmente insiemi specializzati di regole.

Ti serve un sistema in grado di generalizzare una varietà di traduzioni ma è incentrato sui casi d'uso e sui linguaggi linguistici specifici dell'attività dominio nelle combinazioni di lingue che ti interessano. In uno scenario in cui una sequenza specifiche è destinato a espandersi in modo esponenziale, è necessario un sistema che imparare dagli esempi. Per fortuna, i sistemi di machine learning sono ben posizionati per risolvere il problema.

Il modello NMT predefinito o uno personalizzato è lo strumento giusto per me?

Il modello di traduzione automatica neurale (NMT) copre un gran numero di si accoppiano e si adatta bene a testi generici. In che modo un modello personalizzato "excels" sta per "l'ultimo miglio" tra attività di traduzione generiche e attività vocabolari di nicchia. AutoML Translation parte dal modello NMT generico e poi ottimizza il modello per adattarlo ai dati di addestramento per ottenere la traduzione giusta per i contenuti specifici del dominio che ti interessano.

Cosa prevede il machine learning?

Il machine learning prevede l'utilizzo dei dati per addestrare gli algoritmi al fine di ottenere una il risultato desiderato. Le specifiche dell'algoritmo e i metodi di addestramento cambiano in base allo spazio del problema. Esistono molte sottocategorie diverse di modelli dell'apprendimento, che risolvono problemi diversi i vincoli. AutoML Translation ti consente di eseguire apprendimento, che prevede l'addestramento di un computer a riconoscere modelli coppie di segmenti tradotte. Grazie all'apprendimento supervisionato, possiamo addestrare di traduzione automatica dei contenuti specifici del dominio che più ti interessano.

Preparazione dati

Per addestrare un modello personalizzato, devi fornire corrispondenti a coppie di segmenti nelle lingue di origine e di destinazione, ovvero coppie di segmenti con lo stesso significato nella lingua da cui vuoi tradurre e la lingua in cui vuoi tradurre. Più vicino nel significato è il segmento sono le coppie, migliore funzionerà il modello.

Valuta il tuo caso d'uso

Quando raccogli il set di dati, inizia sempre con il caso d'uso. Puoi iniziate con le seguenti domande:

  • Qual è il risultato che stai cercando di ottenere?
  • Quali tipi di segmenti devi tradurre per ottenere questo risultato? È un'attività che il modello NMT è in grado di eseguire fin da subito?
  • Gli esseri umani possono tradurre questi segmenti in modo da ti soddisfa? Se l'attività di traduzione è intrinsecamente ambigua, in cui una persona che parla fluentemente entrambe le lingue ha difficoltà a svolgere una soddisfacente, il modello NMT e il modello personalizzato potrebbero essere in termini di prestazioni.
  • Quali tipi di esempi riflettono meglio il tipo e l'intervallo di dati che il tuo sistema dovrà tradurre?

Un principio fondamentale alla base dei prodotti ML di Google è la macchina incentrata sulla persona dell'IA, un approccio che mette in primo piano l'IA responsabile pratiche, tra cui equità. L'obiettivo dell'equità nel ML è comprendere e prevenire trattamento pregiudiziale delle persone in relazione a gruppo etnico, reddito, orientamento sessuale religione, genere e altre caratteristiche storicamente associate a discriminazione ed emarginazione, quando e dove si manifestano in criteri sistemi o il processo decisionale basato su algoritmi. Puoi scoprire di più nel nostro guida e trova note fair-aware nelle linee guida di seguito. Man mano che procediamo con le linee guida per comporre il set di dati, ti incoraggia a considerare l'equità nel machine learning nei casi pertinenti caso d'uso.

Ottieni i dati da un'origine

Dopo aver stabilito quali dati ti servono, devi trovare un modo per li annotino. Puoi iniziare prendendo in considerazione tutti i dati della tua organizzazione raccoglie. Potresti scoprire che stai già raccogliendo i dati di cui hai bisogno per addestrare un modello di traduzione. Se non disponi dei dati necessari, puoi ottenerlo manualmente o affidarlo a un fornitore di terze parti.

Abbina i dati al dominio problematico

Stai addestrando un modello di traduzione personalizzato perché hai bisogno di un modello adatto di un particolare dominio linguistico. Assicurarsi che le coppie di segmenti abbiano il miglior rendimento possibile compito di coprire il vocabolario, l'uso e le peculiarità grammaticali del tuo settore o area di interesse. Trova i documenti con utilizzi tipici che potresti trovare nelle attività di traduzione che vuoi che vengano svolte e assicurati che il più possibile il significato delle frasi. Naturalmente, a volte lingue non mappano perfettamente nel vocabolario o nella sintassi, ma cercano di acquisire la varietà di semantica che ti aspetti di trovare in uso, se possibile. Ti stai costruendo su un modello che già funziona abbastanza bene con la traduzione generica; gli esempi sono l'ultimo passaggio speciale che rende I modelli personalizzati funzionano in modo particolare per il tuo caso d'uso, quindi assicurati sono pertinenti e rappresentativi dell'utilizzo previsto.

Cattura la diversità del tuo spazio linguistico

Si potrebbe pensare che il modo in cui le persone scrivono di un dominio specifico abbastanza uniforme in modo che un piccolo numero di esempi di testo venga tradotto da un dovrebbe essere sufficiente per addestrare un modello che funzioni bene chiunque abbia scritto di quel dominio. Ma siamo tutti individui e ognuno di noi dare la nostra personalità alle parole che scriviamo. Un set di dati di addestramento con segmento in coppia da un'ampia selezione di autori e traduttori hanno più probabilità di fornire un modello utile per tradurre testi provenienti da organizzazioni diverse. Inoltre, considera la varietà di lunghezze e strutture dei segmenti; un set di dati in cui tutti i segmenti hanno le stesse dimensioni o condividono una struttura grammaticale simile non fornirà a Cloud Translation informazioni sufficienti per creare un modello valido che cattura tutte le possibilità.

Mantenere l'approccio "human-in-the-loop"

Se è del tutto possibile, assicurati che una persona che conosca bene entrambe le lingue ha convalidato che le coppie di segmenti corrispondono correttamente e rappresentano traduzioni comprensibili e accurate. Un errore semplice come il disallineamento righe del foglio di lavoro dei dati di addestramento possono produrre traduzioni che sembrano sciocchezze. La qualità dei dati è la cosa più importante che puoi offrire AutoML Translation per ottenere un modello utilizzabile per la tua attività.

Elimina dati disordinati

È facile commettere errori durante la pre-elaborazione dei dati e alcuni di questi errori può davvero confondere un modello personalizzato. In particolare, cerca i seguenti dati di problemi che puoi risolvere:

  • Rimuovi i segmenti di origine duplicati, in particolare se hanno target diversi. le traduzioni. AutoML Translation utilizza solo il primo esempio rilevato ignora tutte le altre coppie al momento dell'importazione. Se rimuovi i duplicati, AutoML Translation utilizza la traduzione che preferisci.
  • Allinea i segmenti di origine ai segmenti target corretti.
  • Abbina i segmenti alla lingua specificata. Ad esempio, includi solo il cinese in un set di dati cinese.
  • Per i segmenti target che includono lingue miste, verifica che i segmenti non tradotti parole non tradotte intenzionalmente, ad esempio nomi di prodotti o le tue organizzazioni. Scegli come target i segmenti che includono per errore parole non tradotte aggiunte il rumore sui dati di addestramento, il che può comportare un modello di qualità inferiore.
  • Correggi i segmenti con errori tipografici o grammaticali in modo che il tuo modello non impara questi errori.
  • Rimuovi i contenuti non traducibili, ad esempio tag segnaposto e tag HTML. I contenuti non traducibili possono causare errori di punteggiatura.
  • Non includere traduzioni che sostituiscono le entità generali con nomi specifici. Ad esempio, potresti avere un esempio che cambia il "presidente" a un nome di un presidente in particolare come "JFK" o "John F Kennedy". Il modello potrebbe imparare cambiare tutte le occorrenze di "presidente" su "JFK". Rimuovili invece traduzioni o sostituire i nomi specifici con uno comune.
  • Rimuovi i segmenti duplicati nei set di addestramento e test. Scopri di più su set di addestramento e test.
  • Suddividi più segmenti in coppie di segmenti diverse. Addestramento su un set di dati molti elementi hanno più di 50 token (parole) comportano un rendimento inferiore di alta qualità. Se possibile, dividi gli elementi in singole frasi.
  • Utilizza lettere maiuscole e minuscole coerenti. L'involucro influisce sul modo in cui un modello impara, ad esempio, distinguere un titolo dal corpo del testo.
  • Rimuovi i tag TMX quando importi dati da un file TSV. In alcuni casi, potrebbe esportare la memoria di traduzione esistente in un file TSV, includere tag TMX. Tuttavia, AutoML Translation pulisce la traduzione tag unit solo quando importi da un file TMX (non per i file TSV).

In che modo AutoML Translation pre-elabora i dati

AutoML Translation interrompe l'analisi del file di input dei dati se:

  • Formattazione non valida
  • Esiste una coppia di segmenti irragionevolmente lunga (10 MB)
  • Il file utilizza una codifica diversa da UTF-8

AutoML Translation ignora gli errori per problemi che non può rilevare, ad esempio:

  • Un <tu> in un file TMX non ha la lingua di origine o la lingua di destinazione.
  • Una delle coppie di segmenti di input è vuota.

Per la suddivisione automatica dei dati, AutoML Translation esegue ulteriori elaborazioni:

  • Una volta caricato, il set di dati rimuove le coppie di segmenti con segmenti di origine identici.
  • Suddividi i dati in modo casuale in tre set con un rapporto di 8:1:1 (train:validation:test) prima dell'addestramento.

Valuta come AutoML Translation utilizza il tuo set di dati per creare un modello personalizzato

Il set di dati contiene set di addestramento, convalida e test. In caso contrario specificare le suddivisioni (consulta Preparare i dati di addestramento e il set di dati contiene meno di 100.000 coppie di segmenti, AutoML Translation utilizza automaticamente l'80% dei documenti dei contenuti per addestramento, il 10% per la convalida e il 10% per i test. Se i dati sono superiori a dovrai eseguire la tua suddivisione dati.

Set di addestramento

La maggior parte dei dati dovrebbe essere presente nel set di addestramento. Questi sono i dati il modello "vede" durante l'addestramento: viene utilizzato per apprendere i parametri modello, cioè i pesi delle connessioni tra i nodi in ogni rete.

Set di convalida

Il set di convalida, a volte chiamato anche "dev" viene utilizzato anche durante durante il processo di addestramento. Durante l'apprendimento del modello, il framework utilizza il set di addestramento addestrare una suite di modelli candidati, per poi sfruttare le prestazioni del modello un set di convalida per scegliere il modello migliore generato. Utilizza il metodo le prestazioni del set di convalida per ottimizzare gli iperparametri del modello, che sono che specificano la struttura del modello. Se hai utilizzato il set di addestramento ottimizzare gli iperparametri, il modello finirebbe per concentrarsi eccessivamente sull'addestramento e i dati di Google Cloud. L'utilizzo di un set di dati nuovo per ottimizzare la struttura del modello significa migliorerà la generalizzazione.

Set di test

Il set di test non è coinvolto in nessun modo nel processo di addestramento. Una volta che il modello ha completato completamente l'addestramento, usiamo il set di test come un una sfida per il tuo modello. Le prestazioni del modello sul set di test sono ha lo scopo di darti un'idea abbastanza precisa di come il modello si comporterà dati reali.

Suddivisione manuale

AutoML Translation può suddividere i dati in addestramento, convalida set di test per te o puoi farlo autonomamente se desideri allenarti di più controllo completo del processo, se preferisci una suddivisione percentuale diversa o se esistono esempi specifici che sicuramente vuoi includere in una determinata parte del ciclo di vita dell'addestramento del modello.

 

Prepara i dati per l'importazione

Dopo aver deciso se una suddivisione manuale o automatica dei tuoi dati è adatta esistono due modi per aggiungere dati:

  • Puoi importare i dati come file con valori delimitati da tabulazioni (TSV) contenente l'origine una coppia di segmenti per linea.
  • È possibile importare i dati come file TMX, un formato standard per fornire segmenti agli strumenti per i modelli di traduzione automatica (scopri di più sui modelli supportati TMX). Se il file TMX contiene tag XML non validi, AutoML li ignora. Se il file TMX non è conforme alle Formato XML e TMX, ad esempio se manca un tag di chiusura o un <tmx> . AutoML non lo elaborerà. Cloud Translation termina l'elaborazione e restituisce un errore se ignora più di 1024 errori <tu> elementi.

Valuta

Dopo l'addestramento del modello, riceverai un riepilogo delle prestazioni del modello. Fai clic sulla scheda Addestra per visualizzare un'analisi dettagliata.

Cosa devo tenere a mente prima di valutare il mio modello?

Il debug di un modello riguarda più il debug dei dati che il modello stesso. Se le tue inizia ad agire in modo inaspettato mentre ne valuti le prestazioni prima e dopo il trasferimento in produzione, devi tornare e controllare i dati per capire dove possiamo migliorarla.

Punteggio BLEU

Il punteggio BLEU è un metodo standard per misurare la qualità di una traduzione automatica di un sistema operativo completo. AutoML Translation utilizza un punteggio BLEU calcolato sui dati di test da te fornito come metrica di valutazione principale. (Scopri di più su BLEU di valutazione.

Il modello NMT di Google, alla base dell'API Cloud Translation, è progettato per all'utilizzo delle risorse. Potrebbe non essere la soluzione migliore se stai cercando nei tuoi campi. Il modello personalizzato addestrato di solito funziona meglio del modello NMT nei campi correlati al tuo set di addestramento a.

Dopo aver addestrato il modello personalizzato con il tuo set di dati, il punteggio BLEU del il modello personalizzato e il modello Google NMT sono mostrati nella scheda Addestra. C'è Un miglioramento delle prestazioni del punteggio BLEU grazie al modello personalizzato nella scheda Addestra. Più alto è il punteggio BLEU, migliori sono le traduzioni che il modello può fornirti e segmenti simili ai dati di addestramento. Se il punteggio BLEU rientra nella 30-40, il modello è considerato in grado di fornire traduzioni di qualità.

Test del modello

Anche se il punteggio BLEU sembra corretto, è buona norma controllare il modello per assicurarti che il rendimento corrisponda alle tue aspettative. Se le tue i dati di addestramento e di test vengono estratti dallo stesso insieme errato di campioni, potrebbero essere eccellenti anche se la traduzione è senza senso. Aggiungi alcuni esempi come input nella scheda Prevedi e confronta i risultati del modello personalizzato con il modello di base NMT di Google. Puoi notare che il modello fornisce le stesse previsioni del modello di base, soprattutto su segmenti brevi o se un set di addestramento più piccolo. Questo non è imprevisto: il modello di base è già abbastanza buono per un'ampia varietà di casi d'uso. Prova più lunghe o più complesse segmenti. Tuttavia, se tutti i tuoi segmenti tornano identici al le previsioni dal modello di base, questo può indicare un problema di dati.

Se c'è un errore che ti preoccupi particolarmente della creazione del modello (ad esempio, una caratteristica poco chiara della coppia linguistica che spesso viene da parte di persone fisiche o un errore di traduzione che potrebbe essere particolarmente costoso denaro o reputazione) assicurati che il set o la procedura di test riguardi tale caso in modo adeguato per sentirvi al sicuro nell'utilizzo del modello nelle attività quotidiane.

Passaggi successivi