Ce document présente le pipeline et les composants de Workflow tabulaire pour les prévisions. Pour savoir comment entraîner un modèle, consultez la section Entraîner un modèle avec Workflow tabulaire pour les prévisions.
Le workflow tabulaire pour les prévisions est le pipeline complet pour les tâches de prévision. Il est semblable à l'API AutoML, mais vous permet de choisir les éléments à contrôler et les éléments à automatiser. Au lieu de disposer de contrôles pour l'ensemble du pipeline, vous disposez de contrôles pour chaque étape du pipeline. Ces contrôles du pipeline incluent les éléments suivants :
- Répartition des données
- Extraction de caractéristiques
- Recherche d'architecture
- Entraîner le modèle
- Assemblage du modèle
Avantages
Voici quelques avantages de Workflow tabulaire pour les prévisions :
- Accepte les ensembles de données volumineux d'une taille maximale de 1 To et comportant jusqu'à 200 colonnes.
- Permet d'améliorer la stabilité et de réduire le temps d'entraînement en limitant l'espace de recherche des types d'architecture ou en ignorant la recherche d'architecture.
- Permet d'améliorer la vitesse d'entraînement en sélectionnant manuellement le matériel utilisé pour l'entraînement et la recherche d'architecture.
- Pour certaines méthodes d'entraînement de modèle, vous pouvez réduire la taille du modèle et améliorer la latence en modifiant la taille de l'ensemble.
- Chaque composant peut être inspecté dans une interface graphique de pipelines puissante qui vous permet de voir les tables de données transformées, les architectures de modèle évaluées et bien d'autres détails.
- Chaque composant offre une flexibilité et une transparence accrues, telles que la possibilité de personnaliser les paramètres et le matériel, d'afficher l'état des processus et les journaux, etc.
Prévisions sur Vertex AI Pipelines
Workflow tabulaire pour les prévisions est une instance gérée de Vertex AI Pipelines.
Vertex AI Pipelines est un service sans serveur qui exécute des pipelines Kubeflow. Vous pouvez utiliser des pipelines pour automatiser et surveiller vos tâches de machine learning et de préparation des données. Chaque étape d'un pipeline effectue une partie du workflow du pipeline. Par exemple, un pipeline peut inclure des étapes permettant de fractionner les données, de transformer les types de données, et d'entraîner un modèle. Les étapes étant des instances de composants du pipeline, les étapes comportent des entrées, des sorties et une image de conteneur. Les entrées d'étape peuvent être définies à partir des entrées du pipeline ou elles peuvent dépendre de la sortie d'autres étapes dans ce pipeline. Ces dépendances définissent le workflow du pipeline en tant que graphe orienté acyclique.
Présentation du pipeline et des composants
Le schéma suivant illustre le pipeline de modélisation de Workflow tabulaire pour les prévisions :
Les composants du pipeline sont les suivants :
- feature-transform-engine : effectue une extraction de caractéristiques. Pour en savoir plus, consultez la page Feature Transform Engine.
training-configurator-and-validator : Validez la configuration d'entraînement et générez les métadonnées d'entraînement.
Input:
instance_schema
: schéma d'instance dans la spécification OpenAPI, qui décrit les types de données des données de prédiction.dataset_stats
: statistiques décrivant l'ensemble de données brut. Par exemple,dataset_stats
indique le nombre de lignes dans l'ensemble de données.training_schema
: schéma de données d'entraînement dans la spécification OpenAPI, qui décrit les types de données des données d'entraînement.
split-materialized-data : divise les données matérialisées en un ensemble d'entraînement, un ensemble d'évaluation et un ensemble de test.
Input:
materialized_data
: données matérialisées
Résultat :
materialized_train_split
: division d'entraînement matérialiséematerialized_eval_split
: division d'évaluation matérialiséematerialized_test_split
: ensemble de test matérialisé
calculate-training-parameters-2 : calcule la durée d'exécution attendue pour automl-forecasting-stage-1-tuner.
get-hyperparameter-tuning-results - Facultatif : Si vous avez configuré le pipeline pour qu'il ignore la recherche d'architecture, chargez les résultats des réglages d'hyperparamètres issus d'une exécution de pipeline précédente.
Effectuez une recherche d'architecture du modèle et ajustez les hyperparamètres (automl-forecasting-stage-1-tuner) ou utilisez les résultats du réglage des hyperparamètres d'une exécution de pipeline précédente (automl-forecasting-stage-2-tuner).
- Une architecture est définie par un ensemble d'hyperparamètres.
- Les hyperparamètres incluent le type de modèle et les paramètres du modèle.
- Les types de modèles pris en compte sont les réseaux de neurones et les arbres de décision à boosting.
- Un modèle est entraîné pour chaque architecture prise en compte.
Input:
materialized_train_split
: division d'entraînement matérialiséematerialized_eval_split
: division d'évaluation matérialiséeartifact
: résultats du réglage des hyperparamètres d'une exécution de pipeline précédente. Cet artefact n'est une entrée que si vous avez configuré le pipeline pour ignorer la recherche d'architecture.
Résultat :
tuning_result_output
: résultat de réglage.
get-prediction-image-uri-2 : génère l'URI d'image de prédiction correcte en fonction du type de modèle.
automl-forecasting-ensemble-2 : assemble les meilleures architectures pour produire un modèle final.
Input:
tuning_result_output
: résultat de réglage.
Résultat :
unmanaged_container_model
: modèle de sortie.
model-upload-2 - Importe le modèle.
Input:
unmanaged_container_model
: Modèle de sortie.
Résultat :
model
: Modèle Vertex AI.
should_run_model_evaluation - facultatif Utilise l'ensemble de test pour calculer les métriques d'évaluation.