Créer un modèle de traduction personnalisé
Entraîner et utiliser un modèle de traduction personnalisé à l'aide de la console Google Cloud. L'exemple suivant utilise AutoML Translation pour entraîner un modèle de traduction anglais-espagnol en utilisant un ensemble de données contenant des paires de segments axées sur la technologie et la localisation du logiciel.
Avant de commencer
Pour pouvoir utiliser AutoML Translation, l'API Cloud Translation doit être activée pour votre projet, et vous devez disposer des autorisations associées aux rôles suivants :
- Rôle Lecteur pour afficher les ressources existantes dans votre projet
- Rôle Éditeur de l'API Cloud Translation pour créer et gérer des ensembles de données et des modèles
- Rôle Administrateur de l'espace de stockage pour importer des données d'entraînement dans un bucket Cloud Storage
Créer un ensemble de données de traduction et importer des paires de segments
Téléchargez le fichier d'archive contenant les exemples de données pour l'entraînement du modèle, puis extrayez les fichiers.
Pour ce tutoriel, vous utiliserez le fichier TSV anglophone en espagnol.
Accédez à la console AutoML Translation.
Dans le volet de navigation, cliquez sur Ensembles de données pour accéder à la page Ensembles de données.
Cliquez sur Créer l’ensemble de données.
Dans la boîte de dialogue Créer un ensemble de données, spécifiez les détails de l'ensemble de données :
- Saisissez
tutorial_dataset
comme nom de l'ensemble de données. - Sélectionnez Anglais (EN) comme langue source dans la liste déroulante.
- Sélectionnez Espagnol (ES) comme langue cible.
- Cliquez sur Créer.
- Saisissez
Une fois l'ensemble de données créé, cliquez sur son nom pour en afficher les détails.
Accédez à l'onglet Importer et importez l'ensemble de données
en-es.tsv
dans Cloud Storage:- Sélectionnez Importer des fichiers à partir de votre ordinateur.
- Cliquez sur Sélectionner des fichiers, puis choisissez le fichier
en-es.tsv
que vous avez précédemment téléchargé et extrait. - Cliquez sur Parcourir pour sélectionner ou créer un bucket Cloud Storage dans lequel votre fichier TSV est stocké. La région du bucket doit être
us-central1
.
Cliquez sur Continuer.
AutoML Translation divise automatiquement vos données en ensembles d'entraînement, de validation et de test. Vous pouvez afficher ces divisions et les paires de phrases importées dans l'onglet Phrases de votre ensemble de données.
Entraîner un modèle
Accédez à la console AutoML Translation.
Dans le volet de navigation, accédez à la page Ensembles de données.
Cliquez sur l'ensemble de données tutorial_dataset.
Ouvrez l'onglet Entraînement.
Cliquez sur Démarrer l'entraînement pour ouvrir le volet Entraîner le nouveau modèle.
Saisissez
tutorial_model
comme nom du modèle.Cliquez sur Démarrer l'entraînement.
L'entraînement d'un modèle peut prendre plusieurs heures.
Évaluer le modèle
Comparez le modèle au modèle Google NMT par défaut basé sur des paires de segments de votre ensemble de test.
Accédez à la console AutoML Translation.
Dans le volet de navigation, accédez à la page Modèles.
Cliquez sur le modèle tutorial_model.
Cliquez sur l'onglet Évaluation.
Dans la section Évaluations précédentes, Cloud Translation affiche le score BLEU de votre modèle par rapport au modèle NMT de Google. Le score BLEU (Bilingual Evaluation Understudy) indique la similitude entre une traduction automatique et des textes de référence. Les valeurs plus proches de 100 correspondent à des textes plus similaires.
Utiliser le modèle de traduction
À partir de la console Google Cloud, vous pouvez utiliser votre modèle personnalisé pour traduire du texte.
Accédez à la console AutoML Translation.
Dans le volet de navigation, accédez à la page Modèles.
Cliquez sur le modèle tutorial_model.
Cliquez sur l'onglet Prédiction.
Dans la zone de texte Anglais, saisissez le texte à traduire, puis cliquez sur Traduire.
Vous pouvez comparer les résultats de votre modèle personnalisé avec ceux de Google NMT.
Effectuer un nettoyage
Pour éviter des frais Google Cloud inutiles, supprimez votre modèle, votre ensemble de données et votre fichier en-es.tsv
. Vous pouvez également utiliser la console Google Cloud pour supprimer votre projet, si vous n'en avez plus besoin.
Étapes suivantes
- Pour en savoir plus sur les modèles personnalisés, consultez le Guide du débutant.
- Pour créer votre propre ensemble de données et votre propre modèle personnalisé, consultez la page Préparer les données d'entraînement pour savoir comment préparer vos données.