Panoramica delle traduzioni personalizzate

Il modello predefinito di traduzione automatica neurale di Google (NMT) copre un'ampia gamma di lingue diverse e funziona bene per il testo generico. Tuttavia, nei casi in cui stai traducendo testo specifico del dominio o sensibile allo stile, traduzioni personalizzate può aiutarti a ottenere traduzioni più pertinenti.

Per le traduzioni personalizzate devi fornire traduzioni di esempio. Poi, Cloud Translation può generare risultati che seguono lo stile, il tono e il vocabolario dei tuoi esempi.

Cloud Translation offre due soluzioni per richiedere servizi traduzioni: AutoML Translation per l'addestramento di modelli personalizzati traduzione adattiva per sfruttare i modelli linguistici di grandi dimensioni (LLM) di Google. Ciascuna prevede requisiti specifici per i dati, un insieme di lingue supportate e prezzi.

AutoML Translation

Con AutoML Translation, importi i dati per addestrare modelli personalizzati che che possiedi e gestisci. Dopo aver creato un modello personalizzato, puoi richiedere delle traduzioni che usano il tuo modello al posto del modello NMT predefinito. Rispetto a traduzione adattiva, i modelli personalizzati funzionano bene per il testo specifico del dominio in cui la tua priorità è trovare la terminologia corretta. È obbligatorio specificare anche in modo da fornire set di dati più grandi per l'addestramento del modello.

Ti vengono addebitati i costi in base al tempo di addestramento del modello e al numero di caratteri di input che invii per le traduzioni.

Traduzione adattiva

Le traduzioni adattive utilizzano LLM combinati con piccoli set di dati per fornire traduzioni di alta qualità, spesso in linea con le traduzioni di AutoML Translation di machine learning. Non addestra o gestisci alcun modello. Rispetto ai modelli personalizzati, la traduzione adattiva funziona bene per ottenere risposte simili nello stile, tono e voce con il tuo input.

Per la traduzione adattiva, il costo ti viene addebitato in base al numero caratteri.

Prepara traduzioni di esempio

Prepara traduzioni di esempio come coppie di segmenti, composte da una frase in una lingua di origine e una frase corrispondente tradotta nel lingua di destinazione. Salva queste coppie di segmenti in un file con valori delimitati da tabulazioni (TSV) o Translation Memory eXchange (TMX).

Scegli esempi che rappresentano il dominio linguistico dei contenuti che per la traduzione. Per ulteriori indicazioni, consulta la sezione Informazioni sulla preparazione del corso per principianti di AutoML Translation guida.

TSV

Per i file separati da tabulazioni, ogni riga ha il seguente formato:

  • Source segment scheda Translated segment

Non includere una riga di intestazione con codici lingua per identificare l'origine e lingue di destinazione. Puoi specificare queste lingue quando crei un set di dati. L'esempio seguente include coppie di segmenti per l'inglese al tedesco traduzioni:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Tutti i contenuti di un file TSV devono essere in testo normale. Se il testo include tag HTML o altro markup, Cloud Translation tratta il markup come testo normale.

TMX

TMX è un formato XML standard per fornire traduzioni di origine e di destinazione segmenti. Cloud Translation supporta i file di input in un formato basato su TMX versione 1.4. L'esempio seguente illustra struttura richiesta:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

L'elemento <header> di un file TMX in un formato corretto deve identificare la lingua di origine utilizzando l'attributo srclang e ogni L'elemento <tuv> deve identificare la lingua dell'elemento utilizzando l'attributo xml:lang.

Tutti gli elementi <tu> devono contenere una coppia di Elementi <tuv> con le stesse lingue di origine e di destinazione. Se un elemento <tu> contiene più di due <tuv> , Cloud Translation elabora solo il primo <tuv> corrispondente alla lingua di origine e alla prima corrispondenza lingua di destinazione e ignora il resto. Se un elemento <tu> non ha una coppia corrispondente di elementi <tuv>, Cloud Translation salta l'elemento <tu> non valido.

Cloud Translation rimuove i tag di markup da una <seg> prima di elaborarlo. Se L'elemento <tuv> contiene più di un <seg> , Cloud Translation concatena il testo in un singolo con uno spazio.

Se il file contiene tag XML diversi da quelli mostrati in precedenza, Cloud Translation li ignora.

Se il file non è conforme ai formati XML e TMX corretti – per Ad esempio, se manca un tag finale o un elemento <tmx> – Cloud Translation interrompe l'elaborazione. Cloud Translation interrompe anche l'elaborazione se salta più di 1024 caratteri non validi <tu> elementi.

Il minimo obbligatorio e il massimo consentito coppie di segmenti numerici per ogni caratteristica è diverso. Per ulteriori informazioni, consulta la sezione AutoML Translation data preparazione o dati di traduzione adattivi di archiviazione dei dati.

Passaggi successivi