Préparer des données textuelles d'entraînement pour l'extraction d'entités
Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Cette page explique comment préparer des données textuelles à utiliser dans un ensemble de données Vertex AI pour entraîner un modèle d'extraction d'entités.
Les données d'entraînement pour l'extraction d'entités se composent de documents annotés avec les étiquettes qui identifient les types d'entités que votre modèle doit identifier. Par exemple, vous pouvez créer un modèle d'extraction d'entités visant à identifier la terminologie spécialisée dans les documents juridiques ou les brevets. Les annotations spécifient les emplacements des entités que vous étiquetez et les étiquettes elles-mêmes.
Si vous annotez des documents structurés ou semi-structurés dans un ensemble de données utilisé pour entraîner des modèles AutoML, comme par exemple des factures ou des contrats, Vertex AI peut considérer la position d'une annotation comme un facteur contribuant à la validité de l'étiquette. Par exemple, un contrat immobilier comporte à la fois une date d'acceptation et une date de clôture. Vertex AI peut apprendre à distinguer les entités en fonction de la position spatiale de l'annotation.
Exigences en matière de données
Vous devez fournir au minimum 50 ou au maximum 100 000 documents d'entraînement.
Vous devez fournir au minimum 1 ou au maximum 100 étiquettes uniques pour annoter les entités que vous souhaitez extraire.
Vous pouvez utiliser une étiquette pour annoter entre 1 et 10 mots.
Les noms des étiquettes peuvent comporter entre 2 et 30 caractères.
Vous pouvez inclure des annotations directement dans vos fichiers JSON Lines ou les ajouter ultérieurement à l'aide de la console Google Cloud après l'importation des documents.
Vous pouvez intégrer directement les documents ou faire référence à des fichiers TXT situés dans des buckets Cloud Storage.
Bonnes pratiques pour les données textuelles utilisées afin d'entraîner des modèles AutoML
Les recommandations suivantes s'appliquent aux ensembles de données utilisés pour entraîner les modèles AutoML.
Utilisez chaque étiquette au moins 200 fois dans votre ensemble de données d'entraînement.
Annotez chaque occurrence des entités que le modèle doit identifier.
Fichiers d'entrée
Les types de fichiers d'entrée pour l'extraction d'entités doivent être au format JSON Lines. Le format, les noms de champ et les types de valeurs des fichiers JSON Lines sont déterminés par un fichier de schéma qui est un fichier YAML publiquement accessible.
L'exemple suivant montre comment utiliser le schéma pour créer votre propre fichier JSON Lines. L'exemple inclut des sauts de ligne pour des raisons de lisibilité. Dans vos fichiers JSON, n'incluez des sauts de ligne qu'après chaque document. Le champ facultatif dataItemResourceLabels peut par exemple spécifier ml_use.
Vous pouvez également annoter des documents à l'aide de la console Google Cloud. Créez un fichier JSON Lines ne contenant que du contenu (sans le champ textSegmentAnnotations). Les documents sont importés dans Vertex AI sans aucune annotation.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/08 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/08 (UTC)."],[],[],null,["# Prepare text training data for entity extraction\n\n| Starting on September 15, 2024, you can only customize classification, entity extraction, and sentiment analysis objectives by moving to Vertex AI Gemini prompts and tuning. Training or updating models for Vertex AI AutoML for Text classification, entity extraction, and sentiment analysis objectives will no longer be available. You can continue using existing Vertex AI AutoML Text models until June 15, 2025. For a comparison of AutoML text and Gemini, see [Gemini for AutoML text users](/vertex-ai/docs/start/automl-gemini-comparison). For more information about how Gemini offers enhanced user experience through improved prompting capabilities, see [Introduction to tuning](/vertex-ai/generative-ai/docs/models/tune-gemini-overview). To get started with tuning, see [Model tuning for Gemini text models](/vertex-ai/generative-ai/docs/models/tune_gemini/tune-gemini-learn)\n\nThis page describes how to prepare text data for use in a Vertex AI\ndataset to train a entity extraction model.\n\nEntity extraction training data consists of documents that are annotated with\nthe labels that identify the types of entities that you want your model to\nidentify. For example, you might create an entity extraction model to identify\nspecialized terminology in legal documents or patents. Annotations specify\nthe locations of the entities that you're labeling and the labels themselves.\n\nIf you're annotating structured or semi-structure documents for a dataset used\nto train AutoML models, such as invoices or contracts,\nVertex AI can consider an annotation's\nposition on the page as a factor contributing to its proper label. For\nexample, a real estate contract has both an acceptance date and a closing\ndate. Vertex AI can learn to distinguish between the entities\nbased on the spatial position of the annotation.\n\nData requirements\n-----------------\n\n- You must supply at least 50, and no more than 100,000, training documents.\n- You must supply at least 1, and no more than 100, unique labels to annotate entities that you want to extract.\n- You can use a label to annotate between 1 and 10 words.\n- Label names can be between 2 and 30 characters.\n- You can include annotations in your JSON Lines files, or you can add annotations later by using the Google Cloud console after uploading documents.\n- You can include documents inline or reference TXT files that are in Cloud Storage buckets.\n\nBest practices for text data used to train AutoML models\n--------------------------------------------------------\n\nThe following recommendations apply to datasets used to train\nAutoML models.\n\n- Use each label at least 200 times in your training dataset.\n- Annotate every occurrence of entities that you want your model to identify.\n\nInput files\n-----------\n\nInput file types for entity extraction must be JSON Lines. The format, field\nnames, and value types for JSON Lines files are determined by a schema file,\nwhich\nare publicly accessible YAML files.\n\nYou can download the schema file for entity extraction from the following\nCloud Storage location: \n\n[gs://google-cloud-aiplatform/schema/dataset/ioformat/text_extraction_io_format_1.0.0.yaml](https://storage.cloud.google.com/google-cloud-aiplatform/schema/dataset/ioformat/text_extraction_io_format_1.0.0.yaml).\n\nThe following example shows how you might use the schema to create your\nown JSON Lines file. The example includes line breaks for readability. In your\nJSON files, include line breaks only after each document. The\n`dataItemResourceLabels` field specifies, for example, [ml_use](/vertex-ai/docs/general/ml-use) and is\noptional. \n\n```\n{\n \"textSegmentAnnotations\": [\n {\n \"startOffset\":number,\n \"endOffset\":number,\n \"displayName\": \"label\"\n },\n ...\n ],\n \"textContent\": \"inline_text\",\n \"dataItemResourceLabels\": {\n \"aiplatform.googleapis.com/ml_use\": \"training|test|validation\"\n }\n}\n{\n \"textSegmentAnnotations\": [\n {\n \"startOffset\":number,\n \"endOffset\":number,\n \"displayName\": \"label\"\n },\n ...\n ],\n \"textGcsUri\": \"gcs_uri_to_file\",\n \"dataItemResourceLabels\": {\n \"aiplatform.googleapis.com/ml_use\": \"training|test|validation\"\n }\n}\n```\n\nYou can also annotate documents by using the Google Cloud console. Create a\nJSON Lines file with content only (without the `textSegmentAnnotations` field);\ndocuments are uploaded to Vertex AI without any annotations."]]