Créer et gérer des ensembles de données

Un ensemble de données contient des échantillons représentatifs du type de contenus que vous souhaitez traduire, sous la forme de paires de segments correspondants dans les langues source et cible. L'ensemble de données sert d'entrée pour l'entraînement d'un modèle.

Un projet peut contenir plusieurs ensembles de données. Chacun d'eux peut être utilisé pour entraîner un modèle distinct.

Créer un ensemble de données

Créez un ensemble de données contenant les données d'entraînement de votre modèle. Lorsque vous créez un ensemble de données, vous devez indiquer les langues source et cible de vos données d'entraînement. Pour plus d'informations sur les langues et les variantes disponibles, consultez la page Langues acceptées pour les modèles personnalisés.

UI Web

La console AutoML Translation vous permet de créer un ensemble de données et d'y importer des éléments.
  1. Accédez à la console AutoML Translation.

    Accéder à la page "Traduction"

  2. Dans le volet de navigation, cliquez sur Datasets (Ensembles de données).

  3. Sur la page Datasets (Ensembles de données), cliquez sur Create Dataset (Créer un ensemble de données).

  4. Dans la boîte de dialogue Créer un ensemble de données, spécifiez les détails de l'ensemble de données :

    • Saisissez le nom de l'ensemble de données.
    • Sélectionnez les langues source et cible dans les listes déroulantes.
    • Cliquez sur Créer.

REST

L'exemple ci-dessous indique la procédure à suivre pour envoyer une requête POST à la méthode project.locations.datasets/create.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • PROJECT_ID : ID de votre projet Google Cloud.
  • LOCATION : région où résidera l'ensemble de données (par exemple, us-central1).
  • DATASET_NAME : nom de l'ensemble de données.
  • SOURCE_LANG_CODE : code de langue qui spécifie la langue source de l'ensemble de données.
  • TARGET_LANG_CODE : code de langue qui spécifie la langue cible de l'ensemble de données.

Méthode HTTP et URL :

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Corps JSON de la requête :

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

Pour envoyer votre requête, développez l'une des options suivantes :

Vous devriez recevoir une réponse JSON de ce type :

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

Langues supplémentaires

C# : Veuillez suivre les Instructions de configuration pour C# sur la page des bibliothèques clientes, puis consultez la Documentation de référence sur Cloud Translation pour .NET.

PHP : Veuillez suivre les Instructions de configuration pour PHP sur la page des bibliothèques clientes, puis consultez la Documentation de référence sur Cloud Translation pour PHP.

Ruby : Veuillez suivre les instructions de configuration de Ruby sur la page des bibliothèques clientes, puis consultez la documentation de référence sur Cloud Translation pour Ruby.

Importer des segments dans un ensemble de données

Une fois que vous avez créé un ensemble de données, vous pouvez y importer des paires de segments. Pour en savoir plus sur la préparation des données source, consultez la page Préparer des données d'entraînement.

Pour chaque fichier, la console Google Cloud vous permet d'ajouter un tag aux paires de segments importés avec une ou plusieurs paires clé/valeur. L'ajout de tags facilite la recherche et le filtrage des segments par source. Par exemple, une paire clé/valeur peut être Domain:costmetics ou Year:2020.

Vous pouvez ajouter des tags lorsque vous importez des segments via la console Google Cloud. L'ajout de tags n'est pas possible dans l'API. En outre, vous ne pouvez pas modifier les tags ni en ajouter à des segments déjà importés.

UI Web

Les étapes suivantes permettent d'importer des éléments dans un ensemble de données existant.

  1. Accédez à la console AutoML Translation.

    Accéder à la page "Traduction"

  2. Dans le volet de navigation, cliquez sur Datasets (Ensembles de données).

  3. Dans la liste des ensembles de données, cliquez sur le nom de celui auquel vous souhaitez ajouter des données d'entraînement.

  4. Accédez à l'onglet Importer.

  5. Ajoutez des fichiers afin d'importer des paires de segments pour l'entraînement de modèle.

    Importez des fichiers depuis votre ordinateur local vers un bucket Cloud Storage ou sélectionnez des fichiers existants dans Cloud Storage.

    Par défaut, Cloud Translation divise automatiquement vos données en ensembles d'entraînement, de validation et de test. Si vous souhaitez importer des fichiers distincts pour chaque ensemble, sélectionnez Utiliser des fichiers distincts pour l'entraînement, la validation et les tests (avancé). Utilisez cette option si votre ensemble de données contient plus de 100 000 paires de segments afin d'éviter de dépasser la limite maximale de 10 000 paires de segments pour les ensembles de validation et de test.

  6. Pour ajouter des tags à des paires de segments, développez Tags (facultatif).

    1. Dans la liste des fichiers, cliquez sur  Modifier pour ajouter un ou plusieurs tags à toutes les paires de segments d'un fichier donné.

    2. Dans le volet Tags, cliquez sur Ajouter un tag.

    3. Saisissez une clé et une valeur. Vous pourrez filtrer les segments en fonction de cette paire clé/valeur.

    4. Pour ajouter des tags, cliquez sur Ajouter un tag.

    5. Cliquez sur Continuer lorsque vous avez terminé d'ajouter des tags.

  7. Cliquez sur Continuer pour importer des paires de segments.

    Une fois l'importation terminée, vous pouvez afficher les paires de phrases importées dans l'onglet Phrases de votre ensemble de données. Vous filtrez les segments par répartition (entraînement, validation ou test) et en fonction d'un ou plusieurs tags.

REST

Utilisez la méthode projects.locations.datasets.importData pour importer des éléments dans un ensemble de données.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • PROJECT_ID : ID de votre projet Google Cloud.
  • LOCATION : région où résidera l'ensemble de données (par exemple, us-central1).
  • DATASET_ID : ID de l'ensemble de données auquel ajouter des données.
  • FILE_DISPLAY_NAME : nom du fichier contenant les données à importer.
  • USAGE : spécifie la répartition des données pour ces paires de segments (TRAIN, VALIDATION ou TEST).
  • FILE_PATH : chemin d'accès au fichier de données source dans Cloud Storage.

Méthode HTTP et URL :

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

Corps JSON de la requête :

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

Pour envoyer votre requête, développez l'une des options suivantes :

Vous devriez recevoir une réponse JSON de ce type :

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Langues supplémentaires

C# : Veuillez suivre les Instructions de configuration pour C# sur la page des bibliothèques clientes, puis consultez la Documentation de référence sur Cloud Translation pour .NET.

PHP : Veuillez suivre les Instructions de configuration pour PHP sur la page des bibliothèques clientes, puis consultez la Documentation de référence sur Cloud Translation pour PHP.

Ruby : Veuillez suivre les instructions de configuration de Ruby sur la page des bibliothèques clientes, puis consultez la documentation de référence sur Cloud Translation pour Ruby.

Une fois que vous avez créé et rempli l'ensemble de données, vous pouvez entraîner un modèle. Pour en savoir plus, consultez la page Créer et gérer des modèles.

Problèmes d'importation

Lorsque vous créez un ensemble de données, AutoML Translation est susceptible de supprimer des paires de segments si les segments sont trop longs, s'ils sont identiques dans les langues source et cible (non traduits) ou s'il existe des doublons (plusieurs segments avec le même texte source).

Pour les paires de segments trop longues, nous vous recommandons de diviser les segments de manière à ne pas excéder 200 mots, puis de recréer l'ensemble de données. La limite de 200 mots est une estimation de la longueur maximale. Lors du traitement de vos données, AutoML Translation utilise un processus interne pour segmenter les données d'entrée, ce qui peut augmenter la taille de vos segments. Ces données tokenisées sont celles utilisées par AutoML Translation pour mesurer la taille des données.

Supprimez les paires de segments identiques de votre ensemble de données. Si vous souhaitez empêcher la traduction de certains segments, utilisez plutôt une ressource de glossaire afin de créer un dictionnaire personnalisé.

Exporter les données

Vous pouvez exporter des paires de segments provenant d'ensembles de données existants vers un bucket Cloud Storage.

UI Web

  1. Accédez à la console AutoML Translation.

    Accéder à la page "Traduction"

  2. Dans le volet de navigation, cliquez sur Datasets (Ensembles de données) pour afficher la liste de vos ensembles de données.

  3. Cliquez sur le nom de l'ensemble de données pour lequel vous souhaitez exporter des données.

  4. Sur la page des détails de l'ensemble de données, cliquez sur Export data (Exporter des données).

  5. Sélectionnez une destination Cloud Storage où les fichiers TSV exportés seront enregistrés.

  6. Cliquez sur Exporter.

    AutoML Translation génère des fichiers TSV nommés en fonction de l'ensemble auquel ils sont attribués (entraînement, validation et test).

REST

Utilisez la méthode projects.locations.datasets.exportData pour exporter des données vers Cloud Storage sous forme de fichiers TSV.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • PROJECT_ID : ID de votre projet Google Cloud.
  • LOCATION : région où se trouve l'ensemble de données à exporter (par exemple, us-central1).
  • DATASET_ID : ID de l'ensemble de données à exporter.
  • DESTINATION_DIRECTORY : chemin d'accès Cloud Storage où la sortie est envoyée.

Méthode HTTP et URL :

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

Corps JSON de la requête :

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

Pour envoyer votre requête, développez l'une des options suivantes :

Vous devriez recevoir une réponse JSON de ce type :

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Langues supplémentaires

C# : Veuillez suivre les Instructions de configuration pour C# sur la page des bibliothèques clientes, puis consultez la Documentation de référence sur Cloud Translation pour .NET.

PHP : Veuillez suivre les Instructions de configuration pour PHP sur la page des bibliothèques clientes, puis consultez la Documentation de référence sur Cloud Translation pour PHP.

Ruby : Veuillez suivre les instructions de configuration de Ruby sur la page des bibliothèques clientes, puis consultez la documentation de référence sur Cloud Translation pour Ruby.

Répertorier des ensembles de données

Répertoriez les ensembles de données disponibles dans votre projet.

UI Web

Pour afficher la liste des ensembles de données disponibles depuis la console AutoML Translation, cliquez sur Datasets (Ensembles de données) dans le volet de navigation.

Pour afficher les ensembles de données d'un autre projet, sélectionnez le projet dans la liste déroulante située dans la partie supérieure droite de la barre de titre.

REST

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • PROJECT_ID : ID de votre projet Google Cloud.
  • LOCATION : région où se trouvent les ensembles de données à répertorier (par exemple, us-central1).

Méthode HTTP et URL :

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Pour envoyer votre requête, développez l'une des options suivantes :

Vous devriez recevoir une réponse JSON de ce type :

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

Langues supplémentaires

C# : Veuillez suivre les Instructions de configuration pour C# sur la page des bibliothèques clientes, puis consultez la Documentation de référence sur Cloud Translation pour .NET.

PHP : Veuillez suivre les Instructions de configuration pour PHP sur la page des bibliothèques clientes, puis consultez la Documentation de référence sur Cloud Translation pour PHP.

Ruby : Veuillez suivre les instructions de configuration de Ruby sur la page des bibliothèques clientes, puis consultez la documentation de référence sur Cloud Translation pour Ruby.

Supprimer un ensemble de données

UI Web

  1. Dans la console AutoML Translation, cliquez sur Datasets (Ensembles de données) dans le volet de navigation pour afficher la liste des ensembles de données disponibles.

  2. Pour l'ensemble de données à supprimer, sélectionnez Plus > Supprimer.

  3. Cliquez sur Supprimer dans la boîte de dialogue de confirmation.

REST

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • PROJECT_ID : ID de votre projet Google Cloud.
  • LOCATION : région où se trouvent les ensembles de données à répertorier (par exemple, us-central1).
  • DATASET_ID : ID de l'ensemble de données à supprimer.

Méthode HTTP et URL :

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

Pour envoyer votre requête, développez l'une des options suivantes :

Vous devriez recevoir une réponse JSON de ce type :

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

Langues supplémentaires

C# : Veuillez suivre les Instructions de configuration pour C# sur la page des bibliothèques clientes, puis consultez la Documentation de référence sur Cloud Translation pour .NET.

PHP : Veuillez suivre les Instructions de configuration pour PHP sur la page des bibliothèques clientes, puis consultez la Documentation de référence sur Cloud Translation pour PHP.

Ruby : Veuillez suivre les instructions de configuration de Ruby sur la page des bibliothèques clientes, puis consultez la documentation de référence sur Cloud Translation pour Ruby.