Workflow tabulaire pour AutoML de bout en bout

Ce document présente le pipeline et les composants AutoML de bout en bout. Pour apprendre à entraîner un modèle avec AutoML de bout en bout, consultez la section Entraîner un modèle avec AutoML de bout en bout.

Le workflow tabulaire pour AutoML de bout en bout est le pipeline AutoML complet pour les tâches de classification et de régression. Il est semblable à l'API AutoML, mais vous permet de choisir les éléments à contrôler et les éléments à automatiser. Au lieu de disposer de contrôles pour l'ensemble du pipeline, vous disposez de contrôles pour chaque étape du pipeline. Ces contrôles du pipeline incluent les éléments suivants :

  • Répartition des données
  • Extraction de caractéristiques
  • Recherche d'architecture
  • Entraîner le modèle
  • Assemblage du modèle
  • Distillation du modèle

Avantages

Voici quelques-uns des avantages du workflow tabulaire pour AutoML de bout en bout :

  • Accepte les ensembles de données volumineux de plusieurs To et comportant jusqu'à 1 000 colonnes.
  • Permet d'améliorer la stabilité et de réduire le temps d'entraînement en limitant l'espace de recherche des types d'architecture ou en ignorant la recherche d'architecture.
  • Permet d'améliorer la vitesse d'entraînement en sélectionnant manuellement le matériel utilisé pour l'entraînement et la recherche d'architecture.
  • Permet de réduire la taille du modèle et d'améliorer la latence avec la distillation ou en modifiant la taille de l'ensemble.
  • Chaque composant AutoML peut être inspecté dans une interface graphique de pipelines puissante qui vous permet de voir les tables de données transformées, les architectures de modèle évaluées et bien d'autres détails.
  • Chaque composant AutoML offre une flexibilité et une transparence accrues, telles que la possibilité de personnaliser les paramètres et le matériel, d'afficher l'état des processus et les journaux, etc.

AutoML de bout en bout sur Vertex AI Pipelines

Le workflow tabulaire pour AutoML de bout en bout est une instance gérée de Vertex AI Pipelines.

Vertex AI Pipelines est un service sans serveur qui exécute des pipelines Kubeflow. Vous pouvez utiliser des pipelines pour automatiser et surveiller vos tâches de machine learning et de préparation des données. Chaque étape d'un pipeline effectue une partie du workflow du pipeline. Par exemple, un pipeline peut inclure des étapes permettant de fractionner les données, de transformer les types de données, et d'entraîner un modèle. Les étapes étant des instances de composants du pipeline, les étapes comportent des entrées, des sorties et une image de conteneur. Les entrées d'étape peuvent être définies à partir des entrées du pipeline ou elles peuvent dépendre de la sortie d'autres étapes dans ce pipeline. Ces dépendances définissent le workflow du pipeline en tant que graphe orienté acyclique.

Présentation du pipeline et des composants

Le diagramme suivant illustre le pipeline de modélisation pour le workflow tabulaire pour AutoML de bout en bout :

Pipeline pour AutoML Tables de bout en bout 

Les composants du pipeline sont les suivants :

  1. feature-transform-engine : effectue une extraction de caractéristiques. Pour en savoir plus, consultez la page Feature Transform Engine.
  2. split-materialized-data : divise les données matérialisées en un ensemble d'entraînement, un ensemble d'évaluation et un ensemble de test.

    Input:

    • Données matérialisées (materialized_data).

    Output:

    • Division d'entraînement matérialisée (materialized_train_split).
    • Répartition matérialisée pour l'évaluation materialized_eval_split.
    • Ensemble de test matérialisé materialized_test_split.
  3. merge-materialized-splits : fusionne la répartition d'évaluation matérialisée et la répartition d'entraînement matérialisée.
  4. automl-tabular-stage-1-tuner : effectue une recherche de l'architecture du modèle et ajuste les hyperparamètres.

    • Une architecture est définie par un ensemble d'hyperparamètres.
    • Les hyperparamètres incluent le type de modèle et les paramètres du modèle.
    • Les types de modèles pris en compte sont les réseaux de neurones et les arbres de décision à boosting.
    • Un modèle est entraîné pour chaque architecture prise en compte.
  5. automl-tabular-cv-trainer : effectue une validation croisée des architectures en entraînant les modèles sur les différentes lignes des données d'entrée.

    • Les architectures considérées sont celles qui ont donné les meilleurs résultats à l'étape précédente.
    • Les dix meilleures architectures environ sont sélectionnées. Le nombre précis est défini par le budget d'entraînement.
  6. automl-tabular-ensemble : assemble les meilleures architectures pour produire un modèle final.

    • Le schéma suivant illustre la validation croisée de K lignes avec bagging :

    Ensemble avec bagging 

  7. condition-is-distill – Facultatif : crée une version plus petite du modèle d'ensemble.

    • Un modèle plus petit réduit la latence et les coûts liés à la prédiction.
  8. automl-tabular-infra-validator : vérifie si le modèle entraîné est un modèle valide.

  9. model-upload : importe le modèle.

  10. condition-is-evaluation - Facultatif : utilise l'ensemble de test pour calculer les métriques d'évaluation.

Étapes suivantes