Présentation des traductions personnalisées

Le modèle de traduction automatique neuronale (NMT) par défaut couvre un large éventail de langues et fonctionne bien pour les textes à usage général. Toutefois, lorsque vous traduisez un texte spécifique à un domaine ou un style, les traductions personnalisées peuvent vous aider à obtenir des traductions plus pertinentes.

Les traductions personnalisées nécessitent que vous fournissiez vos propres exemples de traductions. Cloud Translation peut ensuite générer des résultats qui suivent étroitement le style, le ton et le vocabulaire de vos exemples.

Cloud Translation fournit deux solutions pour demander des traductions personnalisées : AutoML Translation pour l'entraînement de modèles personnalisés ou la traduction adaptative pour exploiter les modèles LLL (grand modèle de langage) de Google. Chaque fonctionnalité possède ses propres exigences en termes de données, un ensemble de langues compatibles et un tarif spécifique.

AutoML Translation

Avec AutoML Translation, vous importez vos données pour entraîner des modèles personnalisés dont vous êtes propriétaire et que vous gérez. Après avoir créé un modèle personnalisé, vous pouvez demander des traductions qui utilisent votre modèle au lieu du modèle NMT par défaut. Par rapport à la traduction adaptative, les modèles personnalisés fonctionnent bien pour le texte spécifique à un domaine, où la terminologie correcte est votre priorité la plus élevée. Vous devez également fournir des ensembles de données plus volumineux pour l'entraînement de modèle.

Vous êtes facturé selon la durée d'entraînement du modèle et le nombre de caractères d'entrée que vous envoyez pour les traductions.

Traduction adaptative

Les traductions adaptatives utilisent des LLM associés à de petits ensembles de données pour fournir des traductions de haute qualité, souvent au même niveau que les modèles personnalisés AutoML Translation. Vous n'entraînez ni ne gérez aucun modèle. Par rapport aux modèles personnalisés, la traduction adaptative fonctionne bien pour obtenir des réponses de style, de ton et de voix similaires à l'entrée.

Pour la traduction adaptative, le nombre de caractères d'entrée et de sortie vous est facturé.

Préparer des exemples de traductions

Préparez les exemples de traductions sous forme de paires de segments, composées d'une phrase dans une langue source et d'une phrase correspondante traduite dans la langue cible. Enregistrez ces paires de segments dans un fichier de valeurs séparées par des tabulations (TSV) ou un fichier eMX (Translation Memory eXchange).

Choisissez des exemples représentant le domaine linguistique du contenu que vous prévoyez de traduire. Pour obtenir des conseils supplémentaires, consultez la section Préparation des données du guide du débutant pour AutoML Translation.

TSV

Pour les fichiers séparés par des tabulations, chaque ligne est au format suivant :

  • Source segment tabulation Translated segment

N'incluez pas de ligne d'en-tête avec des codes de langue pour identifier les langues source et cible. Vous spécifiez ces langues lorsque vous créez un ensemble de données. L'exemple suivant inclut des paires de segments pour les traductions de l'anglais vers l'allemand :

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Tout le texte du fichier TSV doit être du texte brut. Si le texte inclut des balises HTML ou un autre balisage, Cloud Translation considère le balisage comme du texte brut.

TMX

TMX est un format XML standard qui fournit des segments de traduction source et cible. Cloud Translation accepte les fichiers d'entrée au format TMX, version 1.4. L'exemple suivant illustre la structure requise :

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

L'élément <header> d'un fichier TMX correctement formaté doit identifier la langue source à l'aide de l'attribut srclang, et chaque élément <tuv> doit identifier la langue du texte contenu à l'aide de l'attribut xml:lang.

Tous les éléments <tu> doivent contenir une paire d'éléments <tuv> avec les mêmes langues source et cible. Si un élément <tu> contient plus de deux éléments <tuv>, Cloud Translation ne traite que le premier élément <tuv> correspondant à la langue source et le premier correspondant à la langue cible. Le service ignore le reste. Si un élément <tu> ne comporte pas de paire d'éléments <tuv> correspondante, Cloud Translation ignore l'élément <tu> non valide.

Cloud Translation élimine les balises autour d'un élément <seg> avant de le traiter. Si un élément <tuv> contient plusieurs éléments <seg>, Cloud Translation concatène leur texte en un seul élément avec un espace entre eux.

Si le fichier contient des balises XML autres que celles présentées précédemment, Cloud Translation les ignore.

Si le fichier n'est pas conforme aux formats XML et TMX appropriés, par exemple s'il manque une balise de fin ou un élément <tmx>, Cloud Translation interrompt le traitement. Cloud Translation interrompt également le traitement s'il ignore plus de 1 024 éléments <tu> non valides.

Les paires de segments de nombre minimal et maximal autorisés pour chaque caractéristique sont différentes. Pour en savoir plus, consultez les sections Préparation des données AutoML Translation ou Exigences concernant les données de traduction adaptatives.

Étapes suivantes