Panoramica delle traduzioni personalizzate

Il modello di traduzione automatica neurale (NMT) di Google predefinito copre un'ampia gamma di lingue e funziona bene per i testi generici. Tuttavia, se stai traducendo un testo specifico del dominio o sensibile allo stile, le traduzioni personalizzate possono aiutarti a ottenere traduzioni più pertinenti.

Le traduzioni personalizzate richiedono che tu fornisca le tue traduzioni di esempio. In questo modo, Cloud Translation può generare risultati che rispettino strettamente lo stile, il tono e il vocabolario dei tuoi esempi.

Cloud Translation offre due soluzioni per richiedere traduzioni personalizzate: AutoML Translation per l'addestramento di modelli personalizzati o la traduzione adattiva per sfruttare i modelli linguistici di grandi dimensioni (LLM) di Google. Ogni funzionalità ha i propri requisiti relativi ai dati, l'insieme di lingue supportate e i prezzi.

AutoML Translation

Con AutoML Translation, importi i tuoi dati per addestrare modelli personalizzati di tua proprietà e gestiti da te. Dopo aver creato un modello personalizzato, puoi richiedere traduzioni che utilizzano il tuo modello anziché il modello NMT predefinito. Rispetto alla traduzione adattiva, i modelli personalizzati funzionano bene per il testo specifico del dominio in cui l'uso della terminologia corretta è la tua massima priorità. Inoltre, devi fornire set di dati più grandi per l'addestramento del modello.

Ti viene addebitato il tempo di addestramento del modello e il numero di caratteri di input inviati per le traduzioni.

Traduzione adattiva

Le traduzioni adattive utilizzano LLM combinati con piccoli set di dati per fornire traduzioni di alta qualità, spesso paragonabili ai modelli personalizzati di AutoML Translation. Non addestri o gestisci alcun modello. Rispetto ai modelli personalizzati, la traduzione adattiva è efficace per ottenere risposte simili per stile, tono e voce rispetto al tuo input.

Per la traduzione adattiva, ti viene addebitato il numero di caratteri di input e di output.

Preparare traduzioni di esempio

Prepara le traduzioni di esempio sotto forma di coppie di segmenti, composte da una frase in una lingua di origine e da una frase corrispondente tradotta nella lingua di destinazione. Salva queste coppie di segmenti in un file con valori separati da tabulazioni (TSV) o in un file TMX (Translation Memory eXchange).

Scegli esempi che rappresentino il dominio linguistico dei contenuti che prevedi di tradurre. Per ulteriori indicazioni, consulta la sezione Preparazione dei dati nella guida introduttiva di AutoML Translation.

TSV

Per i file con virgole, ogni riga ha il seguente formato:

  • Source segment scheda Translated segment

Non includere una riga di intestazione con i codici lingua per identificare le lingue di origine e di destinazione. Specifichi queste lingue quando crei un set di dati. L'esempio seguente include coppie di segmenti per le traduzioni dall'inglese al tedesco:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Tutti i contenuti di un file TSV devono essere in testo normale. Se il testo include tag HTML o altro markup, Cloud Translation tratta il markup come testo normale.

TMX

TMX è un formato XML standard per fornire segmenti di traduzione di origine e di destinazione. Cloud Translation supporta i file di input in un formato basato su TMX versione 1.4. L'esempio seguente illustra la struttura obbligatoria:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

L'elemento <header> di un file TMX con formato corretto deve identificare la lingua di origine utilizzando l'attributo srclang, mentre ogni elemento <tuv> deve identificare la lingua del testo contenuto utilizzando l'attributo xml:lang.

Tutti gli elementi <tu> devono contenere una coppia di elementi <tuv> con le stesse lingue di origine e di destinazione. Se un elemento <tu> contiene più di due elementi <tuv>, Cloud Translation elabora solo il primo <tuv> che corrisponde alla lingua di origine e il primo che corrisponde alla lingua di destinazione, ignorando il resto. Se un elemento <tu> non ha una coppia corrispondente di elementi <tuv>, Cloud Translation salta l'elemento <tu> non valido.

Cloud Translation estrae i tag di markup da un elemento <seg> prima di elaborarlo. Se un elemento <tuv> contiene più elementi <seg>, Cloud Translation concatena i loro testi in un unico elemento, separandoli con uno spazio.

Se il file contiene tag XML diversi da quelli mostrati in precedenza, Cloud Translation li ignora.

Se il file non è conforme al corretto formato XML e TMX, ad esempio se manca un tag finale o un elemento <tmx>, Cloud Translation ne interrompe l'elaborazione. Cloud Translation interrompe anche l'elaborazione se salta più di 1024 elementi <tu> non validi.

Le coppie di segmenti di numero minimo richiesto e massimo consentito per ogni funzionalità sono diverse. Per ulteriori informazioni, consulta la sezione sulla preparazione dei dati di AutoML Translation o sui requisiti per i dati di traduzione adattiva.

Passaggi successivi