Entraîner un modèle avec TabNet

Cette page explique comment entraîner un modèle de classification ou de régression à partir d'un ensemble de données tabulaire avec le workflow tabulaire pour TabNet.

Deux versions du workflow tabulaire pour TabNet sont disponibles :

HyperparameterTuningJob, ou job de réglage des hyperparamètres, recherche le meilleur ensemble de valeurs d'hyperparamètres à utiliser pour l'entraînement du modèle.
CustomJob, ou job personnalisé, permet de spécifier les valeurs d'hyperparamètres à utiliser pour l'entraînement du modèle. Si vous connaissez exactement les valeurs d'hyperparamètres dont vous avez besoin, vous pouvez les spécifier au lieu de les rechercher, et économiser ainsi des ressources d'entraînement.

Pour en savoir plus sur les comptes de service utilisés par ce workflow, consultez la page Comptes de service pour les workflows tabulaires.

API de workflows

Ce workflow utilise les API suivantes :

Vertex AI
Dataflow
Compute Engine
Cloud Storage

Entraîner un modèle avec HyperparameterTuningJob

L'exemple de code suivant montre comment exécuter un pipeline HyperparameterTuningJob :

pipeline_job = aiplatform.PipelineJob(
    ...
    template_path=template_path,
    parameter_values=parameter_values,
    ...
)
pipeline_job.run(service_account=SERVICE_ACCOUNT)

Le paramètre facultatif service_account dans pipeline_job.run() vous permet de définir le compte de service Vertex AI Pipelines sur le compte de votre choix.

Le pipeline et les valeurs des paramètres sont définis par la fonction suivante. Les données d'entraînement peuvent être un fichier CSV dans Cloud Storage ou une table dans BigQuery.

template_path, parameter_values =  automl_tabular_utils.get_tabnet_hyperparameter_tuning_job_pipeline_and_parameters(...)

Voici un sous-ensemble de paramètres get_tabnet_hyperparameter_tuning_job_pipeline_and_parameters :

Nom du paramètre	Type	Définition
`data_source_csv_filenames`	Chaîne	URI d'un fichier CSV stocké dans Cloud Storage.
`data_source_bigquery_table_path`	Chaîne	URI d'une table BigQuery.
`dataflow_service_account`	Chaîne	(Facultatif) Compte de service personnalisé permettant d'exécuter des tâches Dataflow. La tâche Dataflow peut être configurée pour utiliser des adresses IP privées et un sous-réseau VPC spécifique. Ce paramètre sert de valeur de remplacement pour le compte de service de nœud de calcul Dataflow par défaut.
`study_spec_parameters_override`	Liste[Dict[Chaîne, Any]]	(Facultatif) Valeur de remplacement pour le réglage des hyperparamètres. Ce paramètre peut être vide, ou contenir un ou plusieurs des hyperparamètres possibles. Si aucune valeur d'hyperparamètre n'est définie, Vertex AI utilise la plage de réglages par défaut pour l'hyperparamètre.

Si vous souhaitez configurer les hyperparamètres à l'aide du paramètre study_spec_parameters_override, vous pouvez utiliser la fonction d'assistance get_tabnet_study_spec_parameters_override de Vertex AI. La fonction comporte les entrées suivantes :

dataset_size_bucket : bucket correspondant à la taille de l'ensemble de données
- "petit" : < 1 million de lignes
- "moyen" : 1 million – 100 millions de lignes
- "grand" : > 100 millions de lignes
training_budget_bucket : bucket du budget d'entraînement
- "petit" : < 600 $
- "moyen" : 600 à 2 400 $
- "grand" : > 2 400 $
prediction_type : type de prédiction souhaité

L'élément get_tabnet_study_spec_parameters_override renvoie une liste d'hyperparamètres et de plages.

Voici un exemple d'utilisation de la fonction get_tabnet_study_spec_parameters_override :

study_spec_parameters_override = automl_tabular_utils.get_tabnet_study_spec_parameters_override(
    dataset_size_bucket="small",
    prediction_type="classification",
    training_budget_bucket="small",
)

Entraîner un modèle avec CustomJob

L'exemple de code suivant montre comment exécuter un pipeline CustomJob :

pipeline_job = aiplatform.PipelineJob(
    ...
    template_path=template_path,
    parameter_values=parameter_values,
    ...
)
pipeline_job.run(service_account=SERVICE_ACCOUNT)

Le paramètre facultatif service_account dans pipeline_job.run() vous permet de définir le compte de service Vertex AI Pipelines sur le compte de votre choix.

Le pipeline et les valeurs des paramètres sont définis par la fonction suivante. Les données d'entraînement peuvent être un fichier CSV dans Cloud Storage ou une table dans BigQuery.

template_path, parameter_values = automl_tabular_utils.get_tabnet_trainer_pipeline_and_parameters(...)

Voici un sous-ensemble de paramètres get_tabnet_trainer_pipeline_and_parameters :

Nom du paramètre	Type	Définition
`data_source_csv_filenames`	Chaîne	URI d'un fichier CSV stocké dans Cloud Storage.
`data_source_bigquery_table_path`	Chaîne	URI d'une table BigQuery.
`dataflow_service_account`	Chaîne	(Facultatif) Compte de service personnalisé permettant d'exécuter des tâches Dataflow. La tâche Dataflow peut être configurée pour utiliser des adresses IP privées et un sous-réseau VPC spécifique. Ce paramètre sert de valeur de remplacement pour le compte de service de nœud de calcul Dataflow par défaut.

Étapes suivantes

Lorsque vous êtes prêt à effectuer des prédictions avec votre modèle de classification ou de régression, vous disposez de deux options :