Cette page explique comment entraîner un modèle d'extraction d'entités AutoML à partir d'un ensemble de données de texte, à l'aide de la console Google Cloud ou de l'API Vertex AI.
Avant de commencer
Avant de pouvoir entraîner un modèle d'extraction d'entités textuelles, vous devez effectuer les opérations suivantes :
Entraîner un modèle AutoML
Console Google Cloud
Dans Google Cloud Console, dans la section Vertex AI, accédez à la page Ensembles de données.
Cliquez sur le nom de l'ensemble de données que vous souhaitez utiliser pour entraîner votre modèle afin d'ouvrir sa page d'informations.
Sélectionnez l'ensemble d'annotations que vous souhaitez utiliser pour ce modèle.
Cliquez sur Entraîner un nouveau modèle.
Pour la méthode d'entraînement, sélectionnez
AutoML.Cliquez sur Continuer.
Saisissez un nom pour le modèle.
Si vous souhaitez définir manuellement la répartition des données d'entraînement, agrandissez Options avancées et sélectionnez une option de répartition des données. En savoir plus
Cliquez sur Démarrer l'entraînement.
L'entraînement de modèle peut prendre plusieurs heures, en fonction de la taille et de la complexité de vos données et du budget d'entraînement, le cas échéant. Vous pouvez fermer cet onglet et y revenir plus tard. Vous recevrez un e-mail une fois l'entraînement terminé.
API
Sélectionnez un onglet pour votre langage ou environnement :
REST
Créez un objet TrainingPipeline
pour entraîner un modèle.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- LOCATION : région dans laquelle le modèle sera créé, par exemple
us-central1
. - PROJECT : ID du projet.
- MODEL_DISPLAY_NAME : nom du modèle tel qu'il apparaît dans l'interface utilisateur.
- DATASET_ID : ID de l'ensemble de données.
- PROJECT_NUMBER : numéro de projet généré automatiquement pour votre projet.
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/trainingPipelines
Corps JSON de la requête :
{ "displayName": "MODEL_DISPLAY_NAME", "trainingTaskDefinition": "gs://google-cloud-aiplatform/schema/trainingjob/definition/automl_text_extraction_1.0.0.yaml", "modelToUpload": { "displayName": "MODEL_DISPLAY_NAME" }, "inputDataConfig": { "datasetId": "DATASET_ID" } }
Pour envoyer votre requête, développez l'une des options suivantes :
Vous devriez recevoir une réponse JSON de ce type :
{ "name": "projects/PROJECT_NUMBER/locations/us-central1/trainingPipelines/PIPELINE_ID", "displayName": "MODEL_DISPLAY_NAME", "inputDataConfig": { "datasetId": "DATASET_ID" }, "trainingTaskDefinition": "gs://google-cloud-aiplatform/schema/trainingjob/definition/automl_text_extraction_1.0.0.yaml", "modelToUpload": { "displayName": "MODEL_DISPLAY_NAME" }, "state": "PIPELINE_STATE_PENDING", "createTime": "2020-04-18T01:22:57.479336Z", "updateTime": "2020-04-18T01:22:57.479336Z" }
Java
Avant d'essayer cet exemple, suivez les instructions de configuration pour Java décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Java.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Avant d'essayer cet exemple, suivez les instructions de configuration pour Node.js décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Node.js.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez la section Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API Python.
Contrôler la répartition des données à l'aide de REST
Vous pouvez contrôler la manière dont vos données d'entraînement sont réparties entre les ensembles d'entraînement, de validation et de test. Lorsque vous utilisez l'API Vertex AI, déterminez la répartition des données à l'aide de l'objet Split
. L'objet Split
peut être inclus dans l'objet InputConfig
sous la forme de plusieurs types d'objets, chacun offrant une manière différente de répartir les données d'entraînement. Vous ne pouvez sélectionner qu'une seule méthode.
-
FractionSplit
:- TRAINING_FRACTION : fraction des données d'entraînement à utiliser pour l'ensemble d'entraînement.
- VALIDATION_FRACTION : fraction des données d'entraînement à utiliser pour l'ensemble de validation. Non utilisé pour les données vidéo.
- TEST_FRACTION : fraction des données d'entraînement à utiliser pour l'ensemble de test.
Si l'une des fractions est spécifiée, elles doivent toutes être spécifiées. La somme des fractions doit être égale à 1,0. Les valeurs par défaut des fractions diffèrent selon le type de données. En savoir plus
"fractionSplit": { "trainingFraction": TRAINING_FRACTION, "validationFraction": VALIDATION_FRACTION, "testFraction": TEST_FRACTION },
-
FilterSplit
: - TRAINING_FILTER : les éléments de données correspondant à ce filtre sont utilisés pour l'ensemble d'entraînement.
- VALIDATION_FILTER : les éléments de données correspondant à ce filtre sont utilisés pour l'ensemble de validation. La valeur doit être "-" pour les données vidéo.
- TEST_FILTER : les éléments de données correspondant à ce filtre sont utilisés pour l'ensemble de test.
Ces filtres peuvent être utilisés avec l'étiquette ml_use
ou avec les étiquettes que vous appliquez à vos données. Découvrez comment filtrer vos données à l'aide de l'étiquette ml-use et d'autres étiquettes.
L'exemple suivant montre comment utiliser l'objet filterSplit
avec l'étiquette ml_use
, avec l'ensemble de validation inclus :
"filterSplit": { "trainingFilter": "labels.aiplatform.googleapis.com/ml_use=training", "validationFilter": "labels.aiplatform.googleapis.com/ml_use=validation", "testFilter": "labels.aiplatform.googleapis.com/ml_use=test" }