Préparer des données textuelles d'entraînement pour l'extraction d'entités

À partir du 15 septembre 2024, vous ne pourrez personnaliser les objectifs de classification, d'extraction d'entités et d'analyse des sentiments qu'en passant aux requêtes et à l'ajustement Vertex AI Gemini. L'entraînement ou la mise à jour des modèles pour les objectifs de classification de texte, d'extraction d'entités et d'analyse des sentiments de Vertex AI AutoML ne seront plus disponibles. Vous pouvez continuer à utiliser les modèles Vertex AI AutoML Text existants jusqu'au 15 juin 2025. Pour obtenir une comparaison du texte AutoML et Gemini, consultez la page Gemini pour les utilisateurs de texte AutoML. Pour en savoir plus sur la façon dont Gemini offre une expérience utilisateur améliorée grâce à des fonctionnalités de requêtes améliorées, consultez Présentation du réglage. Pour commencer à utiliser le réglage, consultez la page Réglage des modèles pour les modèles textuels Gemini

Cette page explique comment préparer des données textuelles à utiliser dans un ensemble de données Vertex AI pour entraîner un modèle d'extraction d'entités.

Les données d'entraînement pour l'extraction d'entités se composent de documents annotés avec les étiquettes qui identifient les types d'entités que votre modèle doit identifier. Par exemple, vous pouvez créer un modèle d'extraction d'entités visant à identifier la terminologie spécialisée dans les documents juridiques ou les brevets. Les annotations spécifient les emplacements des entités que vous étiquetez et les étiquettes elles-mêmes.

Si vous annotez des documents structurés ou semi-structurés dans un ensemble de données utilisé pour entraîner des modèles AutoML, comme par exemple des factures ou des contrats, Vertex AI peut considérer la position d'une annotation comme un facteur contribuant à la validité de l'étiquette. Par exemple, un contrat immobilier comporte à la fois une date d'acceptation et une date de clôture. Vertex AI peut apprendre à distinguer les entités en fonction de la position spatiale de l'annotation.

Exigences en matière de données

Vous devez fournir au minimum 50 ou au maximum 100 000 documents d'entraînement.
Vous devez fournir au minimum 1 ou au maximum 100 étiquettes uniques pour annoter les entités que vous souhaitez extraire.
Vous pouvez utiliser une étiquette pour annoter entre 1 et 10 mots.
Les noms des étiquettes peuvent comporter entre 2 et 30 caractères.
Vous pouvez inclure des annotations directement dans vos fichiers JSON Lines ou les ajouter ultérieurement à l'aide de la console Google Cloud après l'importation des documents.
Vous pouvez intégrer directement les documents ou faire référence à des fichiers TXT situés dans des buckets Cloud Storage.

Bonnes pratiques pour les données textuelles utilisées afin d'entraîner des modèles AutoML

Les recommandations suivantes s'appliquent aux ensembles de données utilisés pour entraîner les modèles AutoML.

Utilisez chaque étiquette au moins 200 fois dans votre ensemble de données d'entraînement.
Annotez chaque occurrence des entités que le modèle doit identifier.

Fichiers d'entrée

Les types de fichiers d'entrée pour l'extraction d'entités doivent être au format JSON Lines. Le format, les noms de champ et les types de valeurs des fichiers JSON Lines sont déterminés par un fichier de schéma qui est un fichier YAML publiquement accessible.

Vous pouvez télécharger le fichier de schéma pour l'extraction d'entités à l'emplacement Cloud Storage suivant :
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_extraction_io_format_1.0.0.yaml.

L'exemple suivant montre comment utiliser le schéma pour créer votre propre fichier JSON Lines. L'exemple inclut des sauts de ligne pour des raisons de lisibilité. Dans vos fichiers JSON, n'incluez des sauts de ligne qu'après chaque document. Le champ facultatif dataItemResourceLabels peut par exemple spécifier ml_use.

{
    "textSegmentAnnotations": [
      {
        "startOffset":number,
        "endOffset":number,
        "displayName": "label"
      },
      ...
    ],
    "textContent": "inline_text",
    "dataItemResourceLabels": {
      "aiplatform.googleapis.com/ml_use": "training|test|validation"
    }
}
{
    "textSegmentAnnotations": [
      {
        "startOffset":number,
        "endOffset":number,
        "displayName": "label"
      },
      ...
    ],
    "textGcsUri": "gcs_uri_to_file",
    "dataItemResourceLabels": {
      "aiplatform.googleapis.com/ml_use": "training|test|validation"
    }
}

Vous pouvez également annoter des documents à l'aide de la console Google Cloud. Créez un fichier JSON Lines ne contenant que du contenu (sans le champ textSegmentAnnotations). Les documents sont importés dans Vertex AI sans aucune annotation.

Créer un ensemble de données

Préparer des données textuelles d'entraînement pour l'extraction d'entités Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Exigences en matière de données

Bonnes pratiques pour les données textuelles utilisées afin d'entraîner des modèles AutoML

Fichiers d'entrée

Préparer des données textuelles d'entraînement pour l'extraction d'entités