Préparer des données textuelles d'entraînement pour l'analyse des sentiments

Cette page explique comment préparer des données textuelles à utiliser dans un ensemble de données Vertex AI pour entraîner un modèle d'analyse des sentiments.

Les données d'entraînement pour l'analyse des sentiments se composent de documents associés à une valeur de sentiment indiquant le sentiment du contenu. Par exemple, vous pouvez disposer de tweets sur un domaine particulier comme le voyage par avion. Chaque tweet est associé à une valeur de sentiment qui indique si le tweet est positif, négatif ou neutre.

Exigences en matière de données

  • Vous devez fournir au minimum 10 ou au maximum 100 000 documents d'entraînement au total.
  • Une valeur de sentiment doit être un entier compris entre 0 et 10. La valeur de sentiment maximale est votre choix. Par exemple, si vous souhaitez déterminer si le sentiment est négatif, positif ou neutre, vous pouvez attribuer aux données d'entraînement des étiquettes représentant des scores de sentiment de 0 (négatif), 1 (neutre) ou 2 (positif). Le score de sentiment maximal pour cet ensemble de données est 2. Si vous souhaitez capturer davantage de précision, par exemple avec cinq niveaux de sentiment, vous pouvez étiqueter les documents de 0 (sentiment le plus négatif) à 4 (sentiment le plus positif).
  • Vous devez appliquer chaque valeur de sentiment à un minimum de 10 documents.
  • Les valeurs de score de sentiment doivent être des nombres entiers consécutifs à partir de zéro. Si vous constatez des écarts dans les scores ou s'ils ne commencent pas à partir de zéro, vous devez remapper vos scores pour obtenir des entiers consécutifs à partir de zéro.
  • Vous pouvez intégrer directement les documents ou faire référence à des fichiers TXT situés dans des buckets Cloud Storage.

Bonnes pratiques pour les données textuelles utilisées afin d'entraîner des modèles AutoML

Les recommandations suivantes s'appliquent aux ensembles de données utilisés pour entraîner les modèles AutoML.

  • Fournissez au moins 100 documents par valeur de sentiment.
  • Utilisez un nombre équilibré de documents pour chaque score de sentiment. Le fait d'avoir plus d'exemples pour certains scores de sentiment peut introduire un biais dans le modèle.

Fichiers d'entrée

Les types de fichiers d'entrée pour l'analyse des sentiments peuvent être des fichiers JSON Lines ou des fichiers CSV.

JSON Lines

Le format, les noms de champ et les types de valeurs pour les fichiers JSON Lines sont déterminés par un fichier de schéma qui est un fichier YAML publiquement accessible.

Vous pouvez télécharger le fichier de schéma pour l'analyse des sentiments à partir de l'emplacement Cloud Storage suivant :
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_sentiment_io_format_1.0.0.yaml

Exemple JSON Lines

L'exemple suivant montre comment utiliser le schéma pour créer votre propre fichier JSON Lines. L'exemple inclut des sauts de ligne pour des raisons de lisibilité. Dans vos fichiers JSON Lines, n'incluez des sauts de ligne qu'après chaque document. Le champ facultatif dataItemResourceLabels peut par exemple spécifier ml_use.

{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textContent": "inline_text",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}
{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textGcsUri": "gcs_uri_to_file",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}

CSV

Chaque ligne d'un fichier CSV fait référence à un seul document. L'exemple suivant montre le format général d'un fichier CSV valide. La colonne ml_use est facultative.

  [ml_use],gcs_file_uri|"inline_text",sentiment,sentimentMax
  

L'extrait suivant est un exemple de fichier CSV d'entrée.

  test,gs://path_to_file,sentiment_value,sentiment_max_value
  test,"inline_text",sentiment_value,sentiment_max_value
  training,gs://path_to_file,sentiment_value,sentiment_max_value
  validation,gs://path_to_file,sentiment_value,sentiment_max_value