Préparer les données d'entraînement

Cloud Translation entraîne des modèles personnalisés en utilisant des paires de segments correspondantes dans les langues source et cible. Le service traite chaque paire de segments comme un élément d'entraînement indépendant, sans supposer de corrélation entre paires distinctes.

Les paires de segments utilisées pour entraîner votre modèle personnalisé doivent se trouver dans les valeurs séparées par des tabulations (.tsv) ou au format Translation Memory eXchange (.tmx). Pour en savoir plus, consultez la page Préparer des exemples de traductions.

Les doublons sont toujours éliminés dans toutes les paires importées. Une paire de segments est un double d'une autre lorsque leur segment source correspond à un autre segment source. Cloud Translation ne vous permet pas d'importer des fichiers ayant le même contenu.

Répartition des données

AutoML Translation utilise les paires de segments que vous fournissez à différentes fins lors de la création de votre modèle personnalisé :

  • Entraînement : utilisez des paires de segments pour entraîner le modèle. Allouez la plupart de vos données à cette fin.
  • Validation : paires de segments pour valider les résultats renvoyés par le modèle pendant l'entraînement.
  • Test : segmentez les paires pour générer les métriques d'évaluation finales de votre modèle. Indique les performances du modèle en production.

Vous pouvez contrôler les paires de segments qu'utilise AutoML Translation à chaque étape, en important des fichiers distincts pour les ensembles d'entraînement, de validation et de test. Si vous ne spécifiez pas explicitement les fichiers à utiliser à chaque étape, AutoML Translation divise automatiquement vos paires de segments en trois ensembles. AutoML Translation utilise environ 80 % de vos données pour l'entraînement, 10 % pour la validation et 10 % pour les tests. AutoML Translation attribue vos paires de segments de manière aléatoire dans les trois ensembles. Vous pouvez utiliser au maximum 10 000 paires de segments pour les ensembles de validation et de test. Après 10 000 paires, les paires de segments sont envoyées vers l'ensemble d'entraînement.

Si vous effectuez plusieurs importations de données dans un même ensemble de données, vous pouvez spécifier manuellement la répartition des données pour une importation et utiliser la répartition automatique pour une autre importation. Les données sont toujours rééquilibrées par rapport à votre répartition manuelle après chaque importation et suppression de fichier.

Exigences en matière de données

Vos données d'entraînement doivent respecter les exigences suivantes :

  • Si vous laissez AutoML Translation répartir automatiquement vos données, vous devez envoyer au moins 1000 paires de segments pour entraîner un modèle personnalisé.
  • Si vous répartissez manuellement vos données, vous devez fournir au moins trois paires de segments pour l'ensemble TRAIN, et vous devez disposer d'au moins 100 paires de segments pour chacun des ensembles VALIDATION et TEST.
  • Vous devez fournir au moins trois paires de segments pour l'ensemble TRAIN, et vous devez disposer d'au moins 100 paires de segments pour les ensembles VALIDATION et TEST.
  • Vous ne pouvez pas fournir plus de 10 000 paires de segments pour les ensembles VALIDATION et TEST.
  • Votre ensemble de données ne peut pas dépasser le maximum de 15 millions de paires de segments.

Recommandations concernant les données

Les recommandations suivantes peuvent vous aider à améliorer la qualité de votre modèle :

  • Utilisez au moins 5000 paires de segments pour TRAIN, 500 paires de segments pour VALIDATION et 500 paires de segments pour TEST. Cela dit, si possible, utilisez davantage de données. Le fait d'avoir plus de données pour l'ensemble TRAIN permet l'apprentissage de modèles récurrents. Le fait d'avoir plus de données pour les ensembles VALIDATION et TEST permet de vérifier que le modèle peut être généralisé à un ensemble plus large de scénarios dans votre domaine.
  • Utilisez des segments d'environ 200 mots au maximum. AutoML Translation risque de supprimer les paires de segments plus grandes. Pour en savoir plus, consultez la section Problèmes d'importation.
  • Corrigez les problèmes de données sources courants, comme décrit dans la section "Nettoyer les données désordonnées" de la section Préparation des données de la présentation.

Étapes suivantes