Cette page explique comment entraîner un modèle de classification AutoML à partir d'un ensemble de données d'images, à l'aide de la console Google Cloud ou de l'API Vertex AI.
Entraîner un modèle AutoML
Console Google Cloud
Dans Google Cloud Console, dans la section Vertex AI, accédez à la page Ensembles de données.
Cliquez sur le nom de l'ensemble de données que vous souhaitez utiliser pour entraîner votre modèle afin d'ouvrir sa page d'informations.
Cliquez sur Entraîner un nouveau modèle.
Pour la méthode d'entraînement, sélectionnez
AutoML.Cliquez sur Continuer.
Saisissez un nom pour le modèle.
Si vous souhaitez définir manuellement la répartition des données d'entraînement, agrandissez Options avancées et sélectionnez une option de répartition des données. En savoir plus
Cliquez sur Démarrer l'entraînement.
L'entraînement de modèle peut prendre plusieurs heures, en fonction de la taille et de la complexité de vos données et du budget d'entraînement, le cas échéant. Vous pouvez fermer cet onglet et y revenir plus tard. Vous recevrez un e-mail une fois l'entraînement terminé.
API
Sélectionnez l'onglet correspondant à votre objectif :
Classification
Sélectionnez l'onglet correspondant à votre langage ou à votre environnement :
REST
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- LOCATION : région d'emplacement de l'ensemble de données et de création du modèle. Exemple :
us-central1
. - PROJECT : l'ID de votre projet.
- TRAININGPIPELINE_DISPLAYNAME : valeur obligatoire. Nom à afficher pour le trainingPipeline.
- DATASET_ID : ID de l'ensemble de données à utiliser pour l'entraînement.
fractionSplit
: facultatif. Une des nombreuses options de répartition possibles en cas d'utilisation de ML pour vos données. PourfractionSplit
, les valeurs doivent être égales à 1. Par exemple :-
{"trainingFraction": "0.7","validationFraction": "0.15","testFraction": "0.15"}
-
- MODEL_DISPLAYNAME* : nom à afficher pour le modèle importé (créé) par le TrainingPipeline.
- MODEL_DESCRIPTION* : description du modèle.
- modelToUpload.labels* : tout ensemble de paires clé/valeur pour organiser vos modèles. Exemple :
- "env" : "prod"
- "tier" : "backend"
- MODELTYPE† : type de modèle hébergé dans le cloud à entraîner. Vous disposez des options suivantes :
CLOUD
(par défaut)
- NODE_HOUR_BUDGET† : le coût réel de l'entraînement sera égal ou inférieur à cette valeur. Pour les modèles cloud, le budget doit être compris entre 8 000 et 800 000 milli-nœuds-heure (inclus). La valeur par défaut est de 192 000, ce qui correspond à une durée d'exécution d'une journée, en supposant que 8 nœuds sont utilisés.
- PROJECT_NUMBER : numéro de projet généré automatiquement pour votre projet.
* | La description du fichier de schéma que vous spécifiez dans trainingTaskDefinition décrit l'utilisation de ce champ. |
† | Le fichier de schéma que vous spécifiez dans trainingTaskDefinition déclare et décrit ce champ. |
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/trainingPipelines
Corps JSON de la requête :
{ "displayName": "TRAININGPIPELINE_DISPLAYNAME", "inputDataConfig": { "datasetId": "DATASET_ID", "fractionSplit": { "trainingFraction": "DECIMAL", "validationFraction": "DECIMAL", "testFraction": "DECIMAL" } }, "modelToUpload": { "displayName": "MODEL_DISPLAYNAME", "description": "MODEL_DESCRIPTION", "labels": { "KEY": "VALUE" } }, "trainingTaskDefinition": "gs://google-cloud-aiplatform/schema/trainingjob/definition/automl_image_classification_1.0.0.yaml", "trainingTaskInputs": { "multiLabel": "false", "modelType": ["MODELTYPE"], "budgetMilliNodeHours": NODE_HOUR_BUDGET } }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/trainingPipelines"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/trainingPipelines" | Select-Object -Expand Content
La réponse contient des informations sur les spécifications, ainsi que sur TRAININGPIPELINE_ID.
Java
Avant d'essayer cet exemple, suivez les instructions de configuration pour Java décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Java.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Avant d'essayer cet exemple, suivez les instructions de configuration pour Node.js décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Node.js.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez la section Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API Python.
Classification
Sélectionnez l'onglet correspondant à votre langage ou à votre environnement :
REST
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- LOCATION : région d'emplacement de l'ensemble de données et de création du modèle. Exemple :
us-central1
. - PROJECT : l'ID de votre projet.
- TRAININGPIPELINE_DISPLAYNAME : valeur obligatoire. Nom à afficher pour le trainingPipeline.
- DATASET_ID : ID de l'ensemble de données à utiliser pour l'entraînement.
fractionSplit
: facultatif. Une des nombreuses options de répartition possibles en cas d'utilisation de ML pour vos données. PourfractionSplit
, les valeurs doivent être égales à 1. Par exemple :-
{"trainingFraction": "0.7","validationFraction": "0.15","testFraction": "0.15"}
-
- MODEL_DISPLAYNAME* : nom à afficher pour le modèle importé (créé) par le TrainingPipeline.
- MODEL_DESCRIPTION* : description du modèle.
- modelToUpload.labels* : tout ensemble de paires clé/valeur pour organiser vos modèles. Exemple :
- "env" : "prod"
- "tier" : "backend"
- MODELTYPE† : type de modèle hébergé dans le cloud à entraîner. Vous disposez des options suivantes :
CLOUD
(par défaut)
- NODE_HOUR_BUDGET† : le coût réel de l'entraînement sera égal ou inférieur à cette valeur. Pour les modèles cloud, le budget doit être compris entre 8 000 et 800 000 milli-nœuds-heure (inclus). La valeur par défaut est de 192 000, ce qui correspond à une durée d'exécution d'une journée, en supposant que 8 nœuds sont utilisés.
- PROJECT_NUMBER : numéro de projet généré automatiquement pour votre projet.
* | La description du fichier de schéma que vous spécifiez dans trainingTaskDefinition décrit l'utilisation de ce champ. |
† | Le fichier de schéma que vous spécifiez dans trainingTaskDefinition déclare et décrit ce champ. |
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/trainingPipelines
Corps JSON de la requête :
{ "displayName": "TRAININGPIPELINE_DISPLAYNAME", "inputDataConfig": { "datasetId": "DATASET_ID", "fractionSplit": { "trainingFraction": "DECIMAL", "validationFraction": "DECIMAL", "testFraction": "DECIMAL" } }, "modelToUpload": { "displayName": "MODEL_DISPLAYNAME", "description": "MODEL_DESCRIPTION", "labels": { "KEY": "VALUE" } }, "trainingTaskDefinition": "gs://google-cloud-aiplatform/schema/trainingjob/definition/automl_image_classification_1.0.0.yaml", "trainingTaskInputs": { "multiLabel": "true", "modelType": ["MODELTYPE"], "budgetMilliNodeHours": NODE_HOUR_BUDGET } }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/trainingPipelines"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/trainingPipelines" | Select-Object -Expand Content
La réponse contient des informations sur les spécifications, ainsi que sur TRAININGPIPELINE_ID.
Java
Avant d'essayer cet exemple, suivez les instructions de configuration pour Java décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Java.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Avant d'essayer cet exemple, suivez les instructions de configuration pour Node.js décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Node.js.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez la section Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API Python.
Contrôler la répartition des données à l'aide de REST
Vous pouvez contrôler la manière dont vos données d'entraînement sont réparties entre les ensembles d'entraînement, de validation et de test. Lorsque vous utilisez l'API Vertex AI, déterminez la répartition des données à l'aide de l'objet Split
. L'objet Split
peut être inclus dans l'objet InputConfig
sous la forme de plusieurs types d'objets, chacun offrant une manière différente de répartir les données d'entraînement. Vous ne pouvez sélectionner qu'une seule méthode.
-
FractionSplit
:- TRAINING_FRACTION : fraction des données d'entraînement à utiliser pour l'ensemble d'entraînement.
- VALIDATION_FRACTION : fraction des données d'entraînement à utiliser pour l'ensemble de validation. Non utilisé pour les données vidéo.
- TEST_FRACTION : fraction des données d'entraînement à utiliser pour l'ensemble de test.
Si l'une des fractions est spécifiée, elles doivent toutes être spécifiées. La somme des fractions doit être égale à 1,0. Les valeurs par défaut des fractions diffèrent selon le type de données. En savoir plus
"fractionSplit": { "trainingFraction": TRAINING_FRACTION, "validationFraction": VALIDATION_FRACTION, "testFraction": TEST_FRACTION },
-
FilterSplit
: - TRAINING_FILTER : les éléments de données correspondant à ce filtre sont utilisés pour l'ensemble d'entraînement.
- VALIDATION_FILTER : les éléments de données correspondant à ce filtre sont utilisés pour l'ensemble de validation. La valeur doit être "-" pour les données vidéo.
- TEST_FILTER : les éléments de données correspondant à ce filtre sont utilisés pour l'ensemble de test.
Ces filtres peuvent être utilisés avec l'étiquette ml_use
ou avec les étiquettes que vous appliquez à vos données. Découvrez comment filtrer vos données à l'aide de l'étiquette ml-use et d'autres étiquettes.
L'exemple suivant montre comment utiliser l'objet filterSplit
avec l'étiquette ml_use
, avec l'ensemble de validation inclus :
"filterSplit": { "trainingFilter": "labels.aiplatform.googleapis.com/ml_use=training", "validationFilter": "labels.aiplatform.googleapis.com/ml_use=validation", "testFilter": "labels.aiplatform.googleapis.com/ml_use=test" }