Guida per nuovi utenti di AutoML Translation

Introduzione

Immagina di gestire un servizio di reporting finanziario che ha l'opportunità di espandersi in nuovi paesi. Questi mercati richiedono che i tuoi dati finanziari documenti vengono tradotti in tempo reale. Invece di assumere personale finanziario bilingue o di stipulare un contratto con un traduttore esperto, entrambi a un prezzo elevato grazie all'esperienza nel settore e alla tua esigenza di tempi di risposta rapidi, AutoML Translation può aiutarti ad automatizzare il job di traduzione in un scalabile, consentendovi di entrare rapidamente in nuovi mercati.

Traduzione

Provalo

Se non hai mai utilizzato Google Cloud, crea un account per valutare in che modo Cloud Translation funziona nel mondo reale diversi scenari. I nuovi clienti ricevono anche 300 $ di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.

Prova Cloud Translation gratuitamente

Perché il machine learning (ML) è lo strumento giusto per questo problema?

Per la programmazione classica, il programmatore deve specificare istruzioni passo passo che il computer possa seguire. Ma questo approccio diventa rapidamente impossibili da tradurre. Il linguaggio naturale è complessa e anche la traduzione lo è: la traduzione basata su regole ha smesso di essere il miglior approccio di decenni fa. Ora la traduzione automatica è quasi completa con un approccio statistico, con un massiccio corpora parallelo che prende il posto di esperti linguistici che perfezionano manualmente insiemi di regole sempre più specializzati.

Ti serve un sistema in grado di generalizzare in una vasta gamma di scenari di traduzione, ma è incentrato sul caso d'uso e sul dominio linguistico specifico dell'attività le combinazioni linguistiche che ti interessano. In uno scenario in cui una sequenza di di regole è destinata a espandersi in modo esponenziale, è necessario un sistema che possa apprendere esempi. Per fortuna, i sistemi di machine learning sono ben posizionati per questo problema.

L'API Translation o AutoML Translation sono lo strumento giusto per me?

L'API Translation copre un numero enorme di combinazioni linguistiche e fa un ottimo lavoro con testi generici. AutoML Translation dà il meglio di sé per quanto riguarda "ultimo miglio" tra attività di traduzione generiche e vocabolari specifici e di nicchia. I nostri modelli personalizzati partono dal modello generico dell'API Translation, ma aggiungono un livello che aiuta nello specifico il modello a ottenere la traduzione giusta per i contenuti che ti interessano.

Confronto tra l'API Translation e AutoML Translation

Prova l'API Translation Inizia a utilizzare AutoML

Cosa comporta il machine learning in AutoML Translation?

Il machine learning prevede l'utilizzo dei dati per addestrare gli algoritmi al fine di raggiungere il risultato finale. Le specifiche dell'algoritmo e dei metodi di addestramento cambiano in base nello spazio dei problemi. Esistono molte sottocategorie diverse di machine learning, che risolvono problemi diversi e funzionano all'interno di vincoli diversi. AutoML Translation ti consente di eseguire un apprendimento supervisionato, che prevede addestrare un computer a riconoscere modelli di coppie di frasi tradotte. Con l'apprendimento supervisionato, possiamo addestrare un modello personalizzato per tradurre specifici del dominio che ti interessano.

Preparazione dati

Per addestrare un modello personalizzato con AutoML Translation, devi fornire corrispondenti coppie di frasi nelle lingue di origine e di destinazione, ovvero coppie di frasi che significano la stessa cosa nella lingua da cui vuoi tradurre e quello da tradurre. Ovviamente, la traduzione non è una ma più vicino nel significato che le coppie di frasi sono, migliorerà il funzionamento del modello.

Valuta il tuo caso d'uso

Quando raccogli il set di dati, inizia sempre con il caso d'uso. Puoi iniziate con le seguenti domande:

  • Qual è il risultato che stai cercando di ottenere?
  • Quali tipi di frasi devi tradurre per ottenere questo risultato? È un'attività che l'API Translation può eseguire immediatamente?
  • È possibile che le persone traducano queste frasi in modo da ti soddisfa? Se l'attività di traduzione è intrinsecamente ambigua, in cui una persona che parla fluentemente entrambe le lingue ha difficoltà a svolgere una è un job soddisfacente, potresti trovare AutoML Translation simile le prestazioni dei dispositivi.
  • Quali tipi di esempi riflettono meglio il tipo e l'intervallo di dati che il tuo sistema dovrà tradurre?

Un principio fondamentale alla base dei prodotti ML di Google è la macchina incentrata sulla persona l'apprendimento, un approccio che mette in primo piano pratiche responsabili dell'IA, inclusa l'equità. L'obiettivo dell'equità nel ML è comprendere ed impedire il trattamento ingiusto o pregiudizievole delle persone in relazione a gruppo etnico, reddito, orientamento, religione, genere e altre caratteristiche storicamente associate discriminazioni ed emarginazioni, quando e dove si manifestano sistemi algoritmici o processi decisionali assistiti da algoritmi. Puoi scoprire di più nella nostra guida e trova "fair-aware" note ✽ indicate nelle linee guida riportate di seguito. Mentre segui le linee guida per la creazione di un insieme il tuo set di dati, ti consigliamo di considerare l'equità nel machine learning pertinenti al tuo caso d'uso.

Ottieni i dati da un'origine

Una volta stabiliti i dati di cui hai bisogno, devi trovare un modo da cui provengono. Puoi iniziare prendendo in considerazione tutti i dati della tua organizzazione raccoglie. Potresti notare che stai già raccogliendo i dati di cui hai bisogno per addestrare un modello di traduzione. Se non disponi dei dati necessari, puoi ottenerlo manualmente o affidarlo a un fornitore di terze parti.

Abbina i dati al dominio problematico

Stai addestrando un modello di traduzione personalizzato perché hai bisogno di un modello adatto di un particolare dominio linguistico. Assicurati che le coppie di frasi abbiano il miglior rendimento possibile compito di coprire il vocabolario, l'uso e le peculiarità grammaticali del tuo settore o area di interesse. Trova i documenti che contengono gli usi tipici trovare nelle attività di traduzione che vuoi svolgere e assicurati che la il più possibile il significato delle frasi. Naturalmente, a volte lingue non mappano perfettamente nel vocabolario o nella sintassi, ma cercano di acquisire la varietà di semantica che ti aspetti di trovare in uso, se possibile. Ti stai costruendo su un modello che già funziona abbastanza bene con la traduzione generica; gli esempi rappresentano l'ultimo passaggio adatta AutoML Translation al tuo caso d'uso in particolare, quindi assicurati sono pertinenti e rappresentativi dell'utilizzo previsto.

Cattura la diversità del tuo spazio linguistico

Si potrebbe pensare che il modo in cui le persone scrivono di un dominio specifico abbastanza uniforme in modo che un piccolo numero di esempi di testo venga tradotto da un dovrebbe essere sufficiente per addestrare un modello che funzioni bene chiunque abbia scritto di quel dominio. Ma siamo tutti individui e ognuno di noi dare la nostra personalità alle parole che scriviamo. Un set di dati di addestramento con una frase in coppia da un'ampia selezione di autori e traduttori hanno più probabilità di fornire un modello utile per tradurre testi provenienti da organizzazioni diverse. Inoltre, considera la varietà di lunghezze e strutture delle frasi; un set di dati dove tutte le frasi hanno le stesse dimensioni o condividono una struttura grammaticale simile non fornirà ad AutoML Translation informazioni sufficienti per creare un modello valido che cattura tutte le possibilità.

Mantenere l'approccio "human-in-the-loop"

Se è del tutto possibile, assicurati che una persona che conosca bene entrambe le lingue ha convalidato che le coppie di frasi corrispondono correttamente e rappresentano comprensibili, traduzioni accurate. Un errore semplice come il disallineamento delle righe un foglio di lavoro con dati di addestramento può produrre traduzioni che sembrano sciocchezze. L'alta qualità dei dati è la cosa più importante che puoi fornire ad AutoML Translation per ottenere un modello utilizzabile per la tua attività.

Elimina dati disordinati

È facile commettere errori durante la pre-elaborazione dei dati e alcuni di questi errori confondere un modello AutoML Translation. In particolare, cerca i seguenti problemi relativi ai dati che puoi risolvere:

  • Rimuovi le frasi di origine duplicate, in particolare se hanno target diversi le traduzioni. AutoML Translation utilizza solo il primo esempio rilevato ignora tutte le altre coppie al momento dell'importazione. Se rimuovi i duplicati, AutoML Translation utilizza la traduzione che preferisci.
  • Allinea le frasi di origine alle frasi di destinazione corrette.
  • Abbina le frasi nella lingua specificata; Ad esempio, includi solo il cinese in un set di dati cinese.
  • Per le frasi target che includono lingue miste, controlla che non siano tradotte parole non tradotte intenzionalmente, ad esempio nomi di prodotti o le tue organizzazioni. Scegli come target le frasi che includono per errore parole non tradotte il rumore sui dati di addestramento, il che può comportare un modello di qualità inferiore.
  • Correggi le frasi con errori tipografici o grammaticali in modo che il tuo modello non impara questi errori.
  • Rimuovi i contenuti non traducibili, ad esempio tag segnaposto e tag HTML. I contenuti non traducibili possono causare errori di punteggiatura.
  • Rimuovi i contenuti specifici delle impostazioni internazionali. Informazioni destinate a locali diversi potrebbero non essere traduzioni dirette, come i numeri di telefono di una impostazioni internazionali specifiche.
  • Non includere traduzioni che sostituiscono le entità generali con nomi specifici. Ad esempio, potresti avere un esempio che cambia il "presidente" a un nome di un presidente in particolare come "JFK" o "John F Kennedy". Il modello potrebbe imparare cambiare tutte le occorrenze di "presidente" su "JFK". Rimuovili invece traduzioni o sostituire i nomi specifici con uno comune.
  • Rimuovi le frasi duplicate nei set di addestramento e test. Scopri di più su set di addestramento e test.
  • Suddividi più frasi in coppie di frasi diverse. Addestramento su un set di dati molti elementi hanno più di 50 token (parole) comportano un rendimento inferiore di alta qualità. Se possibile, dividi gli elementi in singole frasi.
  • Utilizza lettere maiuscole e minuscole coerenti. L'involucro influisce sul modo in cui un modello impara, ad esempio, distinguere un titolo dal corpo del testo.
  • Rimuovi i tag TMX quando importi dati da un file TSV. In alcuni casi, potrebbe esportare la memoria di traduzione esistente in un file TSV, includere tag TMX. Tuttavia, AutoML Translation pulisce l'unità di traduzione solo quando importi il file TMX (non per i file TSV).

In che modo AutoML pre-elabora i dati

AutoML Translation interromperà l'analisi del file di input dei dati quando:

  • Formattazione non valida
  • Esiste una coppia di frasi irragionevolmente lunga (10 MB)
  • Il file utilizza una codifica diversa da UTF-8

AutoML Translation ignora gli errori per problemi che è in grado di rilevare, ad esempio:

  • Un <tu> in un file TMX non ha la lingua di origine o la lingua di destinazione.
  • Una delle coppie di frasi di input è vuota.

In modalità AutoSplit, AutoML Translation esegue ulteriori elaborazioni:

  • Una volta caricato, il set di dati rimuove le coppie di frasi con frasi di origine identiche.
  • Suddividi i dati in modo casuale in tre set con un rapporto di suddivisione 8:1:1 prima dell'addestramento.

Valuta come AutoML Translation utilizza il tuo set di dati per creare un modello personalizzato

Il set di dati contiene set di addestramento, convalida e test. Se non specifichi i segmenti (vedi Preparare i dati di addestramento e il set di dati contiene meno di 100.000 coppie di frasi, quindi utilizza automaticamente l'80% dei documenti relativi ai contenuti per l'addestramento, della convalida e il 10% per i test. Se la quantità di dati è maggiore, dovrai per eseguire la tua suddivisione dati.

Set di addestramento

La maggior parte dei dati dovrebbe essere presente nel set di addestramento. Questi sono i dati il modello "vede" durante l'addestramento: serve per apprendere i parametri del modello, cioè i pesi delle connessioni tra i nodi della rete neurale.

Set di convalida

Il set di convalida, a volte chiamato anche "dev" viene utilizzato anche durante durante il processo di addestramento. Durante l'apprendimento del modello, il framework utilizza il set di addestramento per addestrare una suite di modelli candidati, quindi utilizza le prestazioni del modello il set di convalida per scegliere il modello migliore generato. Utilizza il metodo le prestazioni del set di convalida per ottimizzare gli iperparametri del modello, sono variabili che specificano la struttura del modello. Se hai utilizzato il set di addestramento per ottimizzare gli iperparametri, il modello si concentri eccessivamente sui dati di addestramento. Usare un set di dati nuovo per ottimizza la struttura del modello, questo garantisce una maggiore generalizzazione da parte del modello.

Set di test

Il set di test non è coinvolto in nessun modo nel processo di addestramento. Una volta completato l'addestramento del modello, utilizziamo il set di test come una sfida completamente nuova per il modello. Le prestazioni del modello sul set di test hanno lo scopo di dare da farti un'idea abbastanza precisa di come il modello si comporterà utilizzando dati reali.

Suddivisione manuale

AutoML può suddividere i dati in set di addestramento, convalida e test per te, oppure puoi farlo autonomamente se vuoi avere un maggiore controllo sul processo, se preferisci una suddivisione percentuale diversa o se esistono esempi specifici che sicuramente vuoi includere in una determinata parte del ciclo di vita dell'addestramento del modello.

 

Prepara i dati per l'importazione

Una volta stabilito se una suddivisione manuale o automatica dei dati è adatta esistono due modi per aggiungere dati in AutoML Translation:

  • Puoi importare i dati come file con valori delimitati da tabulazioni (TSV) contenente l'origine e target, una coppia di frasi per riga.
  • Puoi importare i dati come file TMX, un formato standard per fornire frasi agli strumenti per i modelli di traduzione automatica (scopri sul formato TMX supportato). Se il file TMX contiene tag XML non validi, AutoML Translation li ignora. Se il file TMX non è conforme alle Formato XML e TMX, ad esempio se manca un tag di chiusura o un file <tmx> . AutoML Translation non lo elaborerà. Traduzione AutoML termina l'elaborazione e restituisce un errore se vengono ignorati più di 1024 <tu> non valido elementi.

Valuta

Una volta addestrato il modello, riceverai un riepilogo delle prestazioni del modello. Al termine dell'addestramento del modello, fai clic sulla scheda Addestra per visualizzare un'analisi dettagliata.

Cosa devo tenere a mente prima di valutare il mio modello?

Il debug di un modello riguarda più il debug dei dati che il modello stesso. Se le tue inizia ad agire in modo inaspettato mentre ne valuti le prestazioni prima e dopo il trasferimento in produzione, devi tornare e controllare i dati per capire dove possiamo migliorare.

Punteggio BLEU

Il punteggio BLEU è un metodo standard per misurare la qualità di una traduzione automatica di un sistema operativo completo. AutoML Translation utilizza un punteggio BLEU calcolato sui dati di test da te fornito come metrica di valutazione principale. Scopri di più sui punteggi BLEU.

Il modello NMT di Google, alla base dell'API Translation, è progettato per un uso generico. Potrebbe non essere la soluzione migliore per te se sei alla ricerca di servizi nei tuoi campi. Il modello personalizzato addestrato di solito funziona meglio rispetto al modello NMT nei campi a cui è correlato il tuo set di addestramento.

Dopo aver addestrato il modello personalizzato con il tuo set di dati, il punteggio BLEU del il modello personalizzato e il modello Google NMT verranno visualizzati nella scheda Addestra. C'è Un miglioramento delle prestazioni del punteggio BLEU grazie al modello personalizzato nella scheda Addestra. Più alto è il punteggio BLEU, migliori sono le traduzioni che il modello può fornirti simili ai tuoi dati di addestramento. Se il punteggio BLEU rientra nella 30-40, il modello è considerato in grado di fornire traduzioni di qualità.

Test del modello

Anche se il punteggio BLEU sembra corretto, è buona norma eseguire un controllo di integrità del modello. per assicurarti che il rendimento corrisponda alle tue aspettative. Se le tue i dati di addestramento e di test vengono estratti dallo stesso insieme errato di campioni, potrebbero essere eccellenti anche se la traduzione è senza senso. Pensa a alcuni esempi di controlli di integrità da inserire nella funzionalità Previsione di AutoML Translation e confronta i risultati con i risultati del modello di base Google NMT oppure utilizza istruzioni in quella scheda per chiamare l'API AutoML in modo da usare il modello test. Puoi notare che il tuo modello fornisce le stesse previsioni che il modello di base, soprattutto con frasi brevi o se hai un addestramento per iniziare. Questo non è inaspettato: il modello di base è già abbastanza buono per un diversi casi d'uso. Prova a usare frasi più lunghe o più complesse. Tuttavia, se tutte le frasi saranno identiche alle previsioni della base potrebbe indicare un problema dei dati.

Se c'è un errore che ti preoccupi particolarmente della creazione del modello (ad esempio, una caratteristica poco chiara della coppia linguistica che spesso viene da parte di persone fisiche o un errore di traduzione che potrebbe essere particolarmente costoso denaro o reputazione) assicurati che il set o la procedura di test riguardi tale caso in modo adeguato per sentirvi al sicuro nell'utilizzo del modello nelle attività quotidiane.