Guida per nuovi utenti di AutoML Translation

Introduzione

Immagina di gestire un servizio di reporting finanziario che ha l'opportunità di espandersi in nuovi paesi. Questi mercati richiedono che i documenti finanziari sensibili al tempo siano tradotti in tempo reale. Invece di assumere personale finanziario bilingue o stipulare un contratto con un traduttore specializzato, entrambi a costi elevati per via delle loro competenze relative al dominio e della necessità di tempi di esecuzione rapidi, AutoML Translation può aiutarti ad automatizzare il job di traduzione in modo scalabile, consentendoti di entrare rapidamente in nuovi mercati.

Traduzione

Provalo

Se non hai mai utilizzato Google Cloud, crea un account per valutare le prestazioni di Cloud Translation in scenari reali. I nuovi clienti ricevono anche 300 $ di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.

Prova Cloud Translation gratuitamente

Perché il machine learning (ML) è lo strumento giusto per questo problema?

La programmazione classica richiede che il programmatore specifichi le istruzioni passo passo per il computer da seguire. Tuttavia, questo approccio diventa rapidamente impossibile con la traduzione. Il linguaggio naturale è complesso e anche la traduzione lo è: la traduzione basata su regole ha smesso di essere l'approccio migliore decenni fa. Ora la traduzione automatica viene eseguita quasi completamente con un approccio statistico, con enormi corpora paralleli che prendono il posto di esperti linguistici perfezionando manualmente insiemi di regole sempre più specializzati.

Hai bisogno di un sistema che possa essere adatto a una vasta gamma di scenari di traduzione, ma è incentrato sul laser sul tuo caso d'uso e sul dominio linguistico specifico dell'attività nelle combinazioni linguistiche che ti interessano. In uno scenario in cui è prevista l'espansione esponenziale di una sequenza di regole specifiche, è necessario un sistema in grado di apprendere dagli esempi. Fortunatamente, i sistemi di machine learning sono in una posizione ideale per risolvere questo problema.

L'API Translation o AutoML Translation è lo strumento giusto per me?

L'API Translation copre un numero enorme di coppie di lingue e funziona perfettamente con testi generici. La traduzione intelligente di AutoML Translation rappresenta l'"ultimo miglio" tra attività di traduzione generiche e vocabolari di nicchia specifici. I nostri modelli personalizzati partono dal modello generico dell'API Translation, ma aggiungono un livello che aiuta nello specifico il modello a ottenere la traduzione giusta per i contenuti specifici del dominio che ti interessano.

Confronta l'API Translation con AutoML Translation

Prova l'API Translation Inizia a utilizzare AutoML

Cosa comporta il machine learning in AutoML Translation?

Il machine learning prevede l'utilizzo dei dati per addestrare gli algoritmi in modo da raggiungere il risultato desiderato. Le specifiche dell'algoritmo e dei metodi di addestramento cambiano in base allo spazio del problema. Esistono molte sottocategorie di machine learning, ognuna delle quali risolve problemi diversi e funziona in limiti diversi. AutoML Traduttore ti consente di eseguire l'apprendimento supervisionato, che prevede l'addestramento di un computer per il riconoscimento di pattern da coppie di frasi tradotte. Utilizzando l'apprendimento supervisionato, possiamo addestrare un modello personalizzato per tradurre i contenuti specifici del dominio che ti interessano.

Preparazione dati

Per addestrare un modello personalizzato con AutoML Translation, devi fornire coppie di frasi corrispondenti nelle lingue di origine e di destinazione, vale a dire coppie di frasi che significano la stessa cosa nella lingua da cui vuoi tradurre e quella in cui vuoi tradurla. Ovviamente, la traduzione non è una scienza esatta, ma quanto più stretta è il significato delle coppie di frasi, tanto migliore sarà il modello.

Valuta il tuo caso d'uso

Quando compili il set di dati, parti sempre dal caso d'uso. Puoi iniziare con le seguenti domande:

  • Qual è il risultato che vuoi ottenere?
  • Che tipo di frasi devi tradurre per ottenere questo risultato? È un'attività eseguibile da subito dall'API Translation?
  • È possibile che gli esseri umani traducano queste frasi in modo da soddisfare le tue esigenze? Se l'attività di traduzione è intrinsecamente ambigua, al punto che una persona che parla correntemente entrambe le lingue fatica a svolgere un lavoro soddisfacente, le prestazioni di AutoML Translation potrebbero essere simili.
  • Quali tipi di esempi rispecchiano meglio il tipo e l'intervallo di dati che il tuo sistema dovrà tradurre?

Uno dei principi fondamentali alla base dei prodotti di machine learning di Google è il machine learning incentrato sull'uomo, un approccio che mette in primo piano pratiche responsabili di AI, tra cui l'equità. L'obiettivo dell'equità nel machine learning è comprendere e impedire il trattamento ingiusto o pregiudiziale delle persone in relazione a gruppo etnico, reddito, orientamento sessuale, religione, genere e altre caratteristiche storicamente associate a discriminazione ed emarginazione, quando e dove si manifestano in sistemi algoritmici o processi decisionali assistiti da algoritmi. Per ulteriori informazioni, consulta la nostra guida e consulta le note relative al fair use nelle linee guida riportate di seguito. Man mano che procedi con le linee guida per la creazione del set di dati, ti invitiamo a considerare l'equità del machine learning se pertinente al tuo caso d'uso.

Ottieni i dati da un'origine

Dopo aver stabilito i dati necessari, dovrai trovare un modo per eseguirne il provisioning. Puoi iniziare prendendo in considerazione tutti i dati raccolti dalla tua organizzazione. Potresti scoprire che stai già raccogliendo i dati necessari per addestrare un modello di traduzione. Se non disponi di dati necessari, puoi ottenerli manualmente o eseguirne l'esternalizzazione con un provider di terze parti.

Associa i dati al dominio problematico

Addestra un modello di traduzione personalizzato perché ti serve un modello che rientri in un particolare dominio linguistico. Assicurati che le coppie di frasi funzionino al meglio per quanto riguarda la copertura del vocabolario, dell'utilizzo e delle peculiarità grammaticali del tuo settore o della tua area di interesse. Trova i documenti che contengono gli utilizzi tipici che potresti trovare nelle attività di traduzione che vuoi portare a termine e assicurati che le frasi parallele corrispondano il più possibile nel loro significato. Ovviamente, a volte i linguaggi non mappano perfettamente il vocabolario o la sintassi, ma cerca di acquisire la completa diversità della semantica che ti aspetti di trovare quando è possibile. Ti stai basando su un modello che ha già un ottimo lavoro con la traduzione per uso generico: i tuoi esempi sono l'ultimo passaggio speciale che rende AutoML Translation adatto al caso d'uso, quindi assicurati che siano pertinenti e rappresentativi dell'utilizzo che ti aspetti di vedere.

Cattura la diversità del tuo spazio linguistico

Si è tentati di dare per scontato che il modo in cui gli utenti scrivono di un dominio specifico sia sufficientemente elevato da rendere sufficiente un numero limitato di campioni di testo tradotti da un numero ridotto di traduttori per addestrare un modello che funzioni bene per tutti gli altri che scrivono di quel dominio. Tuttavia, siamo tutti individui e ognuno di noi associa la sua personalità alle parole che scrivi. Un set di dati di formazione con coppie di frasi di un'ampia selezione di autori e traduttori ha maggiori probabilità di fornirti un modello utile per tradurre testi scritti da un'organizzazione diversificata. Inoltre, tieni conto della varietà di lunghezze e strutture delle frasi; un set di dati in cui tutte le frasi hanno le stesse dimensioni o condividono una struttura grammaticale simile non darà ad AutoML Translation informazioni sufficienti per creare un buon modello in grado di intercettare tutte le possibilità.

Tenere gli esseri umani al corrente

Se possibile, assicurati che una persona che comprenda correttamente entrambe le lingue abbia verificato che le coppie di frasi corrispondano correttamente e che rappresentino traduzioni comprensibili e accurate. Un errore semplice come quello di disallineamento delle righe del foglio di lavoro di addestramento può produrre traduzioni che sembrano senza senso. È fondamentale fornire dati di alta qualità ad AutoML Translation per ottenere un modello utilizzabile dalla tua azienda.

Elimina i dati disordinati

È facile commettere errori durante la preelaborazione dei dati e alcuni di questi errori possono davvero confondere un modello AutoML Translation. In particolare, cerca i seguenti problemi relativi ai dati che puoi risolvere:

  • Rimuovi le frasi di origine duplicate, soprattutto se hanno traduzioni target diverse. AutoML Translation utilizza solo il primo esempio visto e elimina tutte le altre coppie al momento dell'importazione. Se rimuovi i duplicati, assicurati che AutoML Translation utilizzi la tua traduzione preferita.
  • Allinea le frasi di origine alle frasi di destinazione corrette.
  • Trova le frasi corrispondenti alla lingua specificata; ad esempio, includi solo frasi cinesi in un set di dati cinese.
  • Per le frasi di destinazione che includono lingue miste, controlla che le parole non tradotte non siano state tradotte intenzionalmente, ad esempio nomi di prodotti o organizzazioni. Le frasi di destinazione che includono erroneamente parole non tradotte aggiungono rumore ai dati di addestramento, il che può comportare un modello di qualità inferiore.
  • Correggi le frasi con errori tipografici o grammaticali in modo che il modello non li rilevi.
  • Rimuovi i contenuti non traducibili come i tag segnaposto e i tag HTML. I contenuti non traducibili possono generare errori di punteggiatura.
  • Rimuovi i contenuti specifici per le impostazioni internazionali. Le informazioni destinate a persone diverse potrebbero non essere traduzioni dirette, ad esempio i numeri di telefono di una località specifica.
  • Non includere traduzioni che sostituiscono le entità generali con nomi specifici. Ad esempio, potresti avere un esempio che cambia "presidente" con un nome di un presidente specifico, come "JFK" o "John F Kennedy". Il modello potrebbe imparare a cambiare tutte le istanze di "presidente" in "JFK". Rimuovi queste traduzioni o cambia i nomi specifici con nomi comuni.
  • Rimuovi le frasi duplicate nei set di addestramento e test. Scopri di più sui set di treni e test
  • Dividi più frasi in diverse coppie di frasi. L'addestramento in un set di dati in cui molti elementi contengono più di 50 token (parole) generano modelli di qualità inferiore. Se possibile, dividi gli elementi in singole frasi.
  • Utilizza lettere maiuscole e minuscole coerenti. L'involucro influisce sul modo in cui un modello apprende, ad esempio, per distinguere un titolo da un testo del corpo.
  • Rimuovi i tag TMX quando importi dati in un file TSV. In alcuni casi, potresti esportare la memoria di traduzione esistente in un file TSV, che potrebbe includere tag TMX. Tuttavia, AutoML Translation esegue la pulizia dei tag delle unità di traduzione solo quando importi il file TMX (non per i file TSV).

In che modo AutoML preelabora i tuoi dati

AutoML Translation interromperà l'analisi del file di input dei dati quando:

  • La formattazione non è valida
  • È presente una coppia di frasi irragionevolmente lunga (10 MB)
  • Il file utilizza una codifica diversa da UTF-8

AutoML Translation ignora gli errori che può rilevare, ad esempio:

  • Un elemento <tu> in un file TMX non ha la lingua di origine o di destinazione.
  • Una delle coppie di frasi di input è vuota.

In modalità AutoSplit, AutoML Translation esegue elaborazioni aggiuntive:

  • Dopo il caricamento, il set di dati rimuove le coppie di frasi con frasi di origine identiche.
  • Divide i dati in modo casuale in tre set con rapporto di suddivisione 8:1:1 prima dell'addestramento.

Valuta come AutoML Translation utilizza il tuo set di dati per creare un modello personalizzato

Il set di dati contiene set di addestramento, convalida e test. Se non specifichi le suddivisioni (vedi Preparare i dati di addestramento e il set di dati contiene meno di 100.000 coppie di frasi), AutoML Translation utilizza automaticamente l'80% dei documenti di contenuti per l'addestramento, il 10% per la convalida e il 10% per i test. Se i tuoi dati sono superiori, dovrai eseguire la tua suddivisione dati.

Set di addestramento

La maggior parte dei tuoi dati deve trovarsi nel set di addestramento. Questi sono i dati che il modello "vede" durante l'addestramento: vengono utilizzati per conoscere i parametri del modello, ovvero le ponderazioni delle connessioni tra i nodi della rete neurale.

Set di convalida

Il set di convalida, a volte chiamato anche "set di sviluppo", viene utilizzato anche durante il processo di addestramento. Durante l'apprendimento del modello, il framework utilizza il set di addestramento per addestrare una suite di modelli candidati, quindi utilizza le prestazioni del modello nel set di convalida per scegliere il modello migliore generato. Utilizza le prestazioni del modello nel set di convalida per regolare gli iperparametri del modello, che sono variabili che specificano la struttura del modello. Se avessi utilizzato il set di addestramento per regolare gli iperparametri, il modello sarebbe eccessivamente concentrato sui dati di addestramento. L'utilizzo di un set di dati innovativo per perfezionare la struttura del modello consente di generalizzare meglio il modello.

Set di test

Il set di test non riguarda affatto il processo di addestramento. Una volta completato l'addestramento del modello, utilizziamo il set di test come una sfida completamente nuova per il modello. Le prestazioni del modello sul set di test hanno lo scopo di darti un'idea piuttosto chiara del rendimento del modello sui dati reali.

Suddivisione manuale

AutoML può suddividere i tuoi dati in set di addestramento, convalida e test per tuo conto, oppure puoi farlo autonomamente se vuoi esercitare un maggiore controllo sul processo, se preferisci una suddivisione percentuale diversa o se ci sono esempi specifici che hai la certezza di voler includere in una determinata parte del tuo ciclo di vita di addestramento del modello.

 

Prepara i dati per l'importazione

Dopo aver deciso se la suddivisione manuale o automatica dei dati è adatta a te, esistono due modi per aggiungere dati in AutoML Translation:

  • Puoi importare i dati come file con valori delimitati da tabulazioni (TSV) contenenti frasi di origine e di destinazione, una coppia di frasi per riga.
  • Puoi importare i dati come file TMX, un formato standard per fornire coppie di frasi agli strumenti dei modelli di traduzione automatica (scopri di più sul formato TMX supportato). Se il file TMX contiene tag XML non validi, AutoML Translation li ignora. Se il file TMX non è conforme al formato XML e TMX corretto (ad esempio, se manca un tag finale o un elemento <tmx>), AutoML Translation non lo elaborerà. AutoML Translation termina anche l'elaborazione e restituisce un errore se salta più di 1024 elementi <tu> non validi.

Valuta

Una volta addestrato il modello, riceverai un riepilogo delle prestazioni del modello. Fai clic sulla scheda Addestra dopo che il modello ha completato l'addestramento per visualizzare un'analisi dettagliata.

Cosa devo tenere presente prima di valutare il mio modello?

Il debug di un modello è più importante del debug dei dati. Se il tuo modello inizia a comportarsi in modo imprevisto durante la valutazione delle prestazioni prima e dopo il push alla produzione, dovresti tornare e controllare i dati per vedere dove potrebbero essere migliorati.

Punteggio BLEU

Il punteggio BLEU è un modo standard per misurare la qualità di un sistema di traduzione automatica. AutoML Translation utilizza un punteggio BLEU calcolato sui dati di test che hai fornito come metrica di valutazione principale. Scopri di più sui punteggi BLEU.

Il modello NMT di Google, che è alla base dell'API Translation, è progettato per l'utilizzo generale. Potrebbe non essere la soluzione migliore per te se stai cercando una traduzione specializzata nei tuoi campi. Il modello personalizzato addestrato di solito funziona meglio del modello NMT nei campi a cui è correlato il tuo set di addestramento.

Dopo aver addestrato il modello personalizzato con il tuo set di dati, il punteggio BLEU del modello personalizzato e del modello NMT di Google verrà visualizzato nella scheda Addestra. Nella scheda Addestra, è disponibile anche un aumento del rendimento del punteggio BLEU derivante dal modello personalizzato. Più alto è il punteggio BLEU, migliori saranno le traduzioni del modello per frasi che sono simili ai tuoi dati di addestramento. Se il punteggio BLEU è compreso nell'intervallo 30-40, il modello è considerato in grado di fornire traduzioni valide.

Test del modello

Anche se il punteggio BLEU sembra a posto, è buona norma verificare il modello personalmente per assicurarti che le sue prestazioni corrispondano alle tue aspettative. Se i dati di addestramento e test sono stati ricavati dallo stesso insieme di campioni errati, i punteggi potrebbero essere eccellenti anche se la traduzione è senza senso. Risolvi alcuni esempi di controlli di integrità da inserire nella scheda Previsione di AutoML Translation e confrontali con i risultati del modello base Google NMT oppure utilizza le istruzioni su quella scheda per chiamare l'API AutoML per utilizzare il tuo modello nei test automatici. Potresti notare che il tuo modello viene fornito con le stesse previsioni del modello di base, soprattutto in frasi brevi o se hai un addestramento più piccolo. Ciò non è inaspettato: il modello di base è già abbastanza buono per un'ampia varietà di casi d'uso. Prova con frasi più lunghe o più complesse. Tuttavia, se tutte le frasi tornano identiche alle previsioni del modello di base, ciò potrebbe indicare un problema di dati.

Se c'è un errore che ti preoccupa particolarmente riguardo alla creazione del modello (ad esempio, una funzionalità poco chiara della tua coppia linguistica che spesso richiede un traduzione da parte di persone fisiche o un errore di traduzione che potrebbe essere particolarmente costoso in termini di denaro o reputazione), assicurati che il tuo set di test o la tua procedura coprano la situazione adeguata per la tua sicurezza nelle attività quotidiane.