Cette page explique comment entraîner un modèle de classification AutoML à partir d'un ensemble de données vidéo, à l'aide de la console Google Cloud ou de l'API Vertex AI.
Entraîner un modèle AutoML
Console Google Cloud
Dans Google Cloud Console, dans la section Vertex AI, accédez à la page Ensembles de données.
Cliquez sur le nom de l'ensemble de données que vous souhaitez utiliser pour entraîner votre modèle afin d'ouvrir sa page d'informations.
Cliquez sur Entraîner un nouveau modèle.
Saisissez le nom à afficher pour votre nouveau modèle.
Si vous souhaitez définir manuellement la répartition des données d'entraînement, agrandissez Options avancées et sélectionnez une option de répartition des données. En savoir plus
Cliquez sur Continuer.
Sélectionnez la méthode d'entraînement de modèle.
AutoML
est un bon choix pour un large éventail de cas d'utilisation.Seq2seq+
est un bon choix pour les tests. L'algorithme est susceptible de converger plus rapidement qu'AutoML
, car son architecture est plus simple et il utilise un espace de recherche plus petit. Nos tests montrent que Seq2Seq+ offre de bons résultats avec un petit budget-temps et des ensembles de données dont la taille est inférieure à 1 Go.
Cliquez sur Démarrer l'entraînement.
L'entraînement de modèle peut prendre plusieurs heures, en fonction de la taille et de la complexité de vos données et du budget d'entraînement, le cas échéant. Vous pouvez fermer cet onglet et y revenir plus tard. Vous recevrez un e-mail une fois l'entraînement terminé.
Quelques minutes après le démarrage de l'entraînement, vous pouvez consulter l'estimation nœud-heure d'entraînement à partir des informations sur les propriétés du modèle. Si vous annulez l'entraînement, vous ne serez pas facturé pour le produit actuel.
API
Sélectionnez l'onglet correspondant à votre langage ou à votre environnement :
REST
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- LOCATION : région d'emplacement de l'ensemble de données et de stockage. Exemple :
us-central1
. - PROJECT : l'ID de votre projet.
- MODEL_DISPLAY_NAME : nom à afficher du modèle nouvellement entraîné.
- DATASET_ID : ID de l'ensemble de données d'entraînement.
-
L'objet
filterSplit
est facultatif, il sert à contrôler la répartition des données. Pour en savoir plus sur le contrôle de la répartition des données, consultez la section Contrôler la répartition des données à l'aide de REST. - PROJECT_NUMBER : numéro de projet généré automatiquement pour votre projet.
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/trainingPipelines
Corps JSON de la requête :
{ "displayName": "MODE_DISPLAY_NAME", "trainingTaskDefinition": "gs://google-cloud-aiplatform/schema/trainingjob/definition/automl_video_classification_1.0.0.yaml", "trainingTaskInputs": {}, "modelToUpload": {"displayName": "MODE_DISPLAY_NAME"}, "inputDataConfig": { "datasetId": "DATASET_ID", "filterSplit": { "trainingFilter": "labels.ml_use = training", "validationFilter": "labels.ml_use = -", "testFilter": "labels.ml_use = test" } } }
Pour envoyer votre requête, développez l'une des options suivantes :
Vous devriez recevoir une réponse JSON de ce type :
{ "name": "projects/PROJECT_NUMBER/locations/us-central1/trainingPipelines/2307109646608891904", "displayName": "myModelName", "trainingTaskDefinition": "gs://google-cloud-aiplatform/schema/trainingjob/definition/automl_video_classification_1.0.0.yaml", "modelToUpload": { "displayName": "myModelName" }, "state": "PIPELINE_STATE_PENDING", "createTime": "2020-04-18T01:22:57.479336Z", "updateTime": "2020-04-18T01:22:57.479336Z" }
Java
Avant d'essayer cet exemple, suivez les instructions de configuration pour Java décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Java.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Avant d'essayer cet exemple, suivez les instructions de configuration pour Node.js décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Node.js.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez la section Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API Python.
Contrôler la répartition des données à l'aide de REST
Vous pouvez contrôler la manière dont vos données d'entraînement sont réparties entre les ensembles d'entraînement, de validation et de test. Lorsque vous utilisez l'API Vertex AI, déterminez la répartition des données à l'aide de l'objet Split
. L'objet Split
peut être inclus dans l'objet InputConfig
sous la forme de plusieurs types d'objets, chacun offrant une manière différente de répartir les données d'entraînement. Vous ne pouvez sélectionner qu'une seule méthode.
-
FractionSplit
:- TRAINING_FRACTION : fraction des données d'entraînement à utiliser pour l'ensemble d'entraînement.
- VALIDATION_FRACTION : fraction des données d'entraînement à utiliser pour l'ensemble de validation. Non utilisé pour les données vidéo.
- TEST_FRACTION : fraction des données d'entraînement à utiliser pour l'ensemble de test.
Si l'une des fractions est spécifiée, elles doivent toutes être spécifiées. La somme des fractions doit être égale à 1,0. Les valeurs par défaut des fractions diffèrent selon le type de données. En savoir plus
"fractionSplit": { "trainingFraction": TRAINING_FRACTION, "validationFraction": VALIDATION_FRACTION, "testFraction": TEST_FRACTION },
-
FilterSplit
: - TRAINING_FILTER : les éléments de données correspondant à ce filtre sont utilisés pour l'ensemble d'entraînement.
- VALIDATION_FILTER : les éléments de données correspondant à ce filtre sont utilisés pour l'ensemble de validation. La valeur doit être "-" pour les données vidéo.
- TEST_FILTER : les éléments de données correspondant à ce filtre sont utilisés pour l'ensemble de test.
Ces filtres peuvent être utilisés avec l'étiquette ml_use
ou avec les étiquettes que vous appliquez à vos données. Découvrez comment filtrer vos données à l'aide de l'étiquette ml-use et d'autres étiquettes.
L'exemple suivant montre comment utiliser l'objet filterSplit
avec l'étiquette ml_use
, avec l'ensemble de validation inclus :
"filterSplit": { "trainingFilter": "labels.aiplatform.googleapis.com/ml_use=training", "validationFilter": "labels.aiplatform.googleapis.com/ml_use=validation", "testFilter": "labels.aiplatform.googleapis.com/ml_use=test" }