Préparer les données d'entraînement
Cloud Translation entraîne des modèles personnalisés en utilisant des paires de segments correspondantes dans les langues source et cible. Le service traite chaque paire de segments comme un élément d'entraînement indépendant, sans supposer de corrélation entre paires distinctes.
Les paires de segments utilisées pour entraîner votre modèle personnalisé doivent se trouver dans les valeurs séparées par des tabulations (.tsv
) ou au format Translation Memory eXchange (.tmx
). Vous pouvez importer des fichiers TSV ou TMX spécifiques à l'aide de la console Google Cloud.
Les doublons de segments sont toujours éliminés dans toutes les paires importées. Une paire de segments est un double d'une autre lorsque leur segment source correspond à un autre segment source. Cloud Translation ne vous permet pas d'importer des fichiers ayant le même contenu.
Pour obtenir la liste des paires de langues compatibles, consultez la section Langues acceptées pour les modèles personnalisés.
Répartition des données
AutoML Translation utilise les paires de segments que vous fournissez à différentes fins lors de la création de votre modèle personnalisé :
- Entraînement : utilisez des paires de segments pour entraîner le modèle. Allouez la plupart de vos données à cette fin.
- Validation : paires de segments pour valider les résultats renvoyés par le modèle pendant l'entraînement.
- Test : segmentez les paires pour générer les métriques d'évaluation finales de votre modèle. Indique les performances du modèle en production.
Vous pouvez contrôler les paires de segments qu'utilise AutoML Translation à chaque étape, en important des fichiers distincts pour les ensembles d'entraînement, de validation et de test. Si vous ne spécifiez pas explicitement les fichiers à utiliser à chaque étape, AutoML Translation divise automatiquement vos paires de segments en trois ensembles. AutoML Translation utilise environ 80 % de vos données pour l'entraînement, 10 % pour la validation et 10 % pour les tests. AutoML Translation attribue vos paires de segments de manière aléatoire dans les trois ensembles. Vous pouvez utiliser au maximum 10 000 paires de segments pour les ensembles de validation et de test. Après 10 000 paires, les paires de segments sont envoyées vers l'ensemble d'entraînement.
Si vous effectuez plusieurs importations de données dans un même ensemble de données, vous pouvez spécifier manuellement la répartition des données pour une importation et utiliser la répartition automatique pour une autre importation. Les données sont toujours rééquilibrées par rapport à votre répartition manuelle après chaque importation et suppression de fichier.
Exigences en matière de données
Vos données d'entraînement doivent respecter les exigences suivantes :
- Si vous laissez AutoML Translation répartir automatiquement vos données, vous devez envoyer au moins 1000 paires de segments pour entraîner un modèle personnalisé.
- Si vous répartissez manuellement vos données, vous devez fournir au moins trois paires de segments pour l'ensemble
TRAIN
, et vous devez disposer d'au moins 100 paires de segments pour chacun des ensemblesVALIDATION
etTEST
. - Vous devez fournir au moins trois paires de segments pour l'ensemble
TRAIN
, et vous devez disposer d'au moins 100 paires de segments pour les ensemblesVALIDATION
etTEST
. - Vous ne pouvez pas fournir plus de 10 000 paires de segments pour les ensembles
VALIDATION
etTEST
. - Votre ensemble de données ne peut pas dépasser le maximum de 15 millions de paires de segments.
Recommandations concernant les données
Les recommandations suivantes peuvent vous aider à améliorer la qualité de votre modèle :
- Utilisez au moins 5000 paires de segments pour
TRAIN
, 500 paires de segments pourVALIDATION
et 500 paires de segments pourTEST
. Cela dit, si possible, utilisez davantage de données. Le fait d'avoir plus de données pour l'ensembleTRAIN
permet l'apprentissage de modèles récurrents. Le fait d'avoir plus de données pour les ensemblesVALIDATION
etTEST
permet de vérifier que le modèle peut être généralisé à un ensemble plus large de scénarios dans votre domaine. - Utilisez des segments d'environ 200 mots au maximum. AutoML Translation risque de supprimer les paires de segments plus grandes. Pour en savoir plus, consultez la section Problèmes d'importation.
- Corrigez les problèmes de données sources courants, comme décrit dans la section "Nettoyer les données désordonnées" de la section Préparation des données de la présentation.
Valeurs séparées par des tabulations (TSV)
AutoML Translation accepte les fichiers séparés par des tabulations, dans lesquels chaque ligne a le format suivant :
Source segment
tabulationTranslated segment
Exemple :
It's a beautiful day.\tEs ist ein schöner Tag. Tomorrow it will rain.\tMorgen wird es regnen.
Tout le texte du fichier TSV doit être du texte brut. Si le texte inclut des balises HTML ou un autre balisage, AutoML Translation considère le balisage comme du texte brut. Dans l'exemple précédent, la source est l'anglais et la cible l'allemand.
N'incluez pas de ligne d'en-tête avec des codes de langue pour identifier les langues source et cible. Vous spécifiez les codes de langue source et cible lors de l'entraînement d'un modèle.
Format Translation Memory eXchange (TMX)
TMX est un format XML standard qui fournit des segments de traduction source et cible. AutoML Translation accepte les fichiers d'entrée au format TMX, version 1.4. L'exemple suivant illustre la structure requise :
<?xml version='1.0' encoding='utf-8'?> <!DOCTYPE tmx SYSTEM "tmx14.dtd"> <tmx version="1.4"> <header segtype="sentence" o-tmf="UTF-8" adminlang="en" srclang="en" datatype="PlainText"/> <body> <tu> <tuv xml:lang="en"> <seg>It's a beautiful day.</seg> </tuv> <tuv xml:lang="de"> <seg>Es ist ein schöner Tag.</seg> </tuv> </tu> <tu> <tuv xml:lang="en"> <seg>Tomorrow it will rain.</seg> </tuv> <tuv xml:lang="de"> <seg>Morgen wird es regnen.</seg> </tuv> </tu> </body> </tmx>
L'élément <header>
d'un fichier TMX correctement formaté doit identifier la langue source à l'aide de l'attribut srclang
, et chaque élément <tuv>
doit identifier la langue du texte contenu à l'aide de l'attribut xml:lang
.
Tous les éléments <tu>
doivent contenir une paire d'éléments <tuv>
avec les mêmes langues source et cible. Si un élément <tu>
contient plus de deux éléments <tuv>
, AutoML Translation ne traite que le premier élément <tuv>
correspondant à la langue source et le premier correspondant à la langue cible. Le service ignore le reste. Si un élément <tu>
n'a pas de paire d'éléments <tuv>
correspondante, AutoML Translation ignore l'élément <tu>
non valide.
AutoML Translation élimine les balises autour d'un élément <seg>
avant de le traiter. Si un élément <tuv>
contient plusieurs éléments <seg>
, AutoML Translation concatène leur texte en un seul élément avec un espace entre eux.
Si le fichier contient des balises XML autres que celles présentées ci-dessus, AutoML Translation les ignore.
Si le fichier n'est pas conforme aux formats XML et TMX appropriés, par exemple s'il manque une balise de fin ou un élément <tmx>
, AutoML Translation interrompt le traitement. AutoML Translation interrompt également le traitement s'il ignore plus de 1 024 éléments <tu>
non valides.