Entraîner un modèle avec wide et deep learning

Cette page explique comment entraîner un modèle de classification ou de régression à partir d'un ensemble de données tabulaire à l'aide du workflow tabulaire pour wide et deep learning.

Deux versions du workflow tabulaire pour wide et deep learning sont disponibles :

  • HyperparameterTuningJob, ou job de réglage des hyperparamètres, recherche le meilleur ensemble de valeurs d'hyperparamètres à utiliser pour l'entraînement du modèle.
  • CustomJob, ou job personnalisé, permet de spécifier les valeurs d'hyperparamètres à utiliser pour l'entraînement du modèle. Si vous connaissez exactement les valeurs d'hyperparamètres dont vous avez besoin, vous pouvez les spécifier au lieu de les rechercher, et économiser ainsi des ressources d'entraînement.

Pour en savoir plus sur les comptes de service utilisés par ce workflow, consultez la page Comptes de service pour les workflows tabulaires.

API de workflows

Ce workflow utilise les API suivantes :

  • Vertex AI
  • Dataflow
  • Compute Engine
  • Cloud Storage

Entraîner un modèle avec HyperparameterTuningJob

L'exemple de code suivant montre comment exécuter un pipeline HyperparameterTuningJob :

pipeline_job = aiplatform.PipelineJob(
    ...
    template_path=template_path,
    parameter_values=parameter_values,
    ...
)
pipeline_job.run(service_account=SERVICE_ACCOUNT)

Le paramètre facultatif service_account dans pipeline_job.run() vous permet de définir le compte de service Vertex AI Pipelines sur le compte de votre choix.

Le pipeline et les valeurs des paramètres sont définis par la fonction suivante. Les données d'entraînement peuvent être un fichier CSV dans Cloud Storage ou une table dans BigQuery.

template_path, parameter_values =  automl_tabular_utils.get_wide_and_deep_hyperparameter_tuning_job_pipeline_and_parameters(...)

Voici un sous-ensemble de paramètres get_wide_and_deep_hyperparameter_tuning_job_pipeline_and_parameters :

Nom du paramètre Type Définition
data_source_csv_filenames String URI d'un fichier CSV stocké dans Cloud Storage.
data_source_bigquery_table_path Chaîne URI d'une table BigQuery.
dataflow_service_account Chaîne (Facultatif) Compte de service personnalisé permettant d'exécuter des tâches Dataflow. La tâche Dataflow peut être configurée pour utiliser des adresses IP privées et un sous-réseau VPC spécifique. Ce paramètre sert de valeur de remplacement pour le compte de service de nœud de calcul Dataflow par défaut.
study_spec_parameters_override Liste[Dict[Chaîne, Any]] (Facultatif) Valeur de remplacement pour le réglage des hyperparamètres. Ce paramètre peut être vide, ou contenir un ou plusieurs des hyperparamètres possibles. Si aucune valeur d'hyperparamètre n'est définie, Vertex AI utilise la plage de réglages par défaut pour l'hyperparamètre.

Si vous souhaitez configurer les hyperparamètres à l'aide du paramètre study_spec_parameters_override, vous pouvez utiliser la fonction d'assistance get_wide_and_deep_study_spec_parameters_override de Vertex AI. Cette fonction affiche une liste d'hyperparamètres et de plages.

Voici un exemple d'utilisation de la fonction get_wide_and_deep_study_spec_parameters_override :

study_spec_parameters_override = automl_tabular_utils.get_wide_and_deep_study_spec_parameters_override()

Entraîner un modèle avec CustomJob

L'exemple de code suivant montre comment exécuter un pipeline CustomJob :

pipeline_job = aiplatform.PipelineJob(
    ...
    template_path=template_path,
    parameter_values=parameter_values,
    ...
)
pipeline_job.run(service_account=SERVICE_ACCOUNT)

Le paramètre facultatif service_account dans pipeline_job.run() vous permet de définir le compte de service Vertex AI Pipelines sur le compte de votre choix.

Le pipeline et les valeurs des paramètres sont définis par la fonction suivante. Les données d'entraînement peuvent être un fichier CSV dans Cloud Storage ou une table dans BigQuery.

template_path, parameter_values = automl_tabular_utils.get_wide_and_deep_trainer_pipeline_and_parameters(...)

Voici un sous-ensemble de paramètres get_wide_and_deep_trainer_pipeline_and_parameters :

Nom du paramètre Type Définition
data_source_csv_filenames String URI d'un fichier CSV stocké dans Cloud Storage.
data_source_bigquery_table_path Chaîne URI d'une table BigQuery.
dataflow_service_account Chaîne (Facultatif) Compte de service personnalisé permettant d'exécuter des tâches Dataflow. La tâche Dataflow peut être configurée pour utiliser des adresses IP privées et un sous-réseau VPC spécifique. Ce paramètre sert de valeur de remplacement pour le compte de service de nœud de calcul Dataflow par défaut.

Étapes suivantes

Lorsque vous êtes prêt à effectuer des prédictions avec votre modèle de classification ou de régression, vous disposez de deux options :