Workflows tabulaires sur Vertex AI

Les flux de travail tabulaires sont un ensemble de pipelines intégrés, entièrement gérés et évolutifs pour le ML de bout en bout avec des données tabulaires. Cet outil s'appuie sur la technologie de Google pour le développement de modèles et propose des options de personnalisation adaptées à vos besoins.

Avantages

  • Entièrement géré : vous n'avez pas à vous soucier des mises à jour, des dépendances et des conflits.
  • Évolutivité facile : vous n'avez pas besoin de repenser l'infrastructure au fur et à mesure de la croissance des charges de travail ou des ensembles de données.
  • Optimisé pour les performances : le bon matériel est automatiquement configuré pour répondre aux exigences du workflow.
  • Profondément intégré : la compatibilité avec les produits de la suite MLOps Vertex AI, comme les pipelines Vertex AI et les tests Vertex AI, vous permet d'exécuter de nombreux tests en très peu de temps.

Présentation technique

Chaque workflow est une instance gérée de Vertex AI Pipelines.

Vertex AI Pipelines est un service sans serveur qui exécute des pipelines Kubeflow. Vous pouvez utiliser des pipelines pour automatiser et surveiller vos tâches de machine learning et de préparation des données. Chaque étape d'un pipeline effectue une partie du workflow du pipeline. Par exemple, un pipeline peut inclure des étapes permettant de fractionner les données, de transformer les types de données, et d'entraîner un modèle. Les étapes étant des instances de composants du pipeline, les étapes comportent des entrées, des sorties et une image de conteneur. Les entrées d'étape peuvent être définies à partir des entrées du pipeline ou elles peuvent dépendre de la sortie d'autres étapes dans ce pipeline. Ces dépendances définissent le workflow du pipeline en tant que graphe orienté acyclique.

workflows tabulaires en tant que graphe orienté acyclique

Premiers pas

Dans la plupart des cas, vous devez définir et exécuter le pipeline à l'aide du SDK de composants de pipeline Google Cloud. L'exemple de code suivant fournit une illustration. Notez que l'implémentation réelle du code peut être différente.

  // Define the pipeline and the parameters
  template_path, parameter_values = tabular_utils.get_default_pipeline_and_parameters(
     …
      optimization_objective=optimization_objective,
      data_source=data_source,
      target_column_name=target_column_name
     …)
  // Run the pipeline
  job = pipeline_jobs.PipelineJob(..., template_path=template_path, parameter_values=parameter_values)
  job.run(...)

Pour obtenir des exemples de colabs et de notebooks, contactez votre conseiller commercial ou remplissez un formulaire de demande.

Gestion des versions et maintenance

Les workflows tabulaires disposent d'un système de gestion des versions efficace qui permet des mises à jour et des améliorations continues sans pour autant affecter vos applications.

Chaque workflow est publié et mis à jour dans le cadre du SDK de composants de pipeline Google Cloud. Les mises à jour et les modifications apportées à un workflow sont déployées en tant que nouvelles versions de ce workflow. Les versions précédentes de chaque workflow sont toujours disponibles via les anciennes versions du SDK. Si la version du SDK est épinglée, la version du workflow l'est également.

Workflows disponibles

Vertex AI fournit les workflows tabulaires suivants :

Nom Type Disponibilité
Feature Transform Engine Ingénierie des caractéristiques Aperçu public
AutoML de bout en bout Classification et régression Disponibilité générale
TabNet Classification et régression Aperçu public
Large et profond Classification et régression Aperçu public
Prévision Prévision Aperçu public

Pour obtenir plus d'informations et des exemples de notebooks, contactez votre conseiller commercial ou remplissez un formulaire de demande.

Feature Transform Engine

Feature Transform Engine effectue une sélection de caractéristiques et des transformations de caractéristiques. Si la sélection de caractéristiques est activée, Feature Transform Engine crée un ensemble classé de caractéristiques importantes. Si les transformations de caractéristiques sont activées, Feature Transform Engine traite les caractéristiques pour s'assurer que les entrées pour l'entraînement et la diffusion du modèle sont cohérentes. Feature Transform Engine peut être utilisé seul ou avec n'importe quel workflow d'entraînement tabulaire. Il est compatible avec les frameworks TensorFlow et non TensorFlow.

Pour en savoir plus, consultez la page Ingénierie des caractéristiques.

Workflows tabulaires pour la classification et la régression

Workflow tabulaire pour AutoML de bout en bout

Le workflow tabulaire pour AutoML de bout en bout est le pipeline AutoML complet pour les tâches de classification et de régression. Il est semblable à l'API AutoML, mais vous permet de choisir les éléments à contrôler et les éléments à automatiser. Au lieu de disposer de contrôles pour l'ensemble du pipeline, vous disposez de contrôles pour chaque étape du pipeline. Ces contrôles du pipeline incluent les éléments suivants :

  • Répartition des données
  • Ingénierie des caractéristiques
  • Recherche d'architecture
  • Entraîner le modèle
  • Assemblage du modèle
  • Distillation du modèle

Avantages

  • Accepte les ensembles de données volumineux de plusieurs To et comportant jusqu'à 1 000 colonnes.
  • Permet d'améliorer la stabilité et de réduire le temps d'entraînement en limitant l'espace de recherche des types d'architecture ou en ignorant la recherche d'architecture.
  • Permet d'améliorer la vitesse d'entraînement en sélectionnant manuellement le matériel utilisé pour l'entraînement et la recherche d'architecture.
  • Permet de réduire la taille du modèle et d'améliorer la latence avec la distillation ou en modifiant la taille de l'ensemble.
  • Chaque composant AutoML peut être inspecté dans une interface graphique de pipelines puissante qui vous permet de voir les tables de données transformées, les architectures de modèle évaluées et bien d'autres détails.
  • Chaque composant AutoML offre une flexibilité et une transparence accrues, telles que la possibilité de personnaliser les paramètres et le matériel, d'afficher l'état des processus et les journaux, etc.

Entrée-Sortie

  • Utilise une table BigQuery ou un fichier CSV à partir de Cloud Storage en entrée.
  • Génère un modèle Vertex AI en sortie.
  • Les sorties intermédiaires incluent les statistiques et les divisions des ensembles de données.

Pour en savoir plus, consultez la page Workflow tabulaire pour AutoML de bout en bout.

Workflow tabulaire pour TabNet

Le workflow tabulaire pour TabNet est un pipeline qui vous permet d'entraîner des modèles de classification ou de régression. TabNet utilise une attention séquentielle pour choisir les caractéristiques à partir desquelles établir le raisonnement, à chaque étape de décision. Cela permet une interprétabilité et un apprentissage plus efficace, car la capacité d'apprentissage est utilisée pour les caractéristiques les plus saillantes.

Avantages

  • Sélectionne automatiquement l'espace de recherche d'hyperparamètres approprié en fonction de la taille de l'ensemble de données, du type de prédiction et du budget d'entraînement.
  • Intégré à Vertex AI. Le modèle entraîné est un modèle Vertex AI. Vous pouvez exécuter des prédictions par lot ou déployer immédiatement le modèle pour obtenir des prédictions en ligne.
  • Fournit l'interprétabilité des modèles inhérente. Vous pouvez obtenir des informations sur les fonctionnalités utilisées par TabNet pour prendre sa décision.
  • Compatible avec l'entraînement avec GPU.

Entrée-Sortie

Utilise en entrée une table BigQuery ou un fichier CSV à partir de Cloud Storage, et fournit un modèle Vertex AI en sortie.

Pour plus d'informations, consultez la page Workflow tabulaire pour TabNet.

Workflow tabulaire pour les modèles wide et deep learning

Le workflow tabulaire pour wide et deep learning est un pipeline que vous pouvez utiliser pour entraîner des modèles de classification ou de régression. Les modèles wide et deep learning permettent d'entraîner conjointement des modèles linéaires larges et des réseaux de neurones profonds. Ils combinent les avantages de la mémorisation et de la généralisation. Dans certains tests en ligne, les résultats ont montré que les modèles wide et deep learning ont augmenté de manière significative les acquisitions d'applications Google Store par rapport aux modèles uniquement larges et uniquement profonds.

Avantages

  • Intégré à Vertex AI. Le modèle entraîné est un modèle Vertex AI. Vous pouvez exécuter des prédictions par lot ou déployer immédiatement le modèle pour obtenir des prédictions en ligne.

Entrée-Sortie

Utilise en entrée une table BigQuery ou un fichier CSV à partir de Cloud Storage, et fournit un modèle Vertex AI en sortie.

Pour en savoir plus, consultez la page Workflow tabulaire pour wide et deep learning.

Workflows tabulaires pour les prévisions

Workflow tabulaire pour les prévisions

Le workflow tabulaire pour les prévisions est le pipeline complet pour les tâches de prévision. Il est semblable à l'API AutoML, mais vous permet de choisir les éléments à contrôler et les éléments à automatiser. Au lieu de disposer de contrôles pour l'ensemble du pipeline, vous disposez de contrôles pour chaque étape du pipeline. Ces contrôles du pipeline incluent les éléments suivants :

  • Répartition des données
  • Ingénierie des caractéristiques
  • Recherche d'architecture
  • Entraîner le modèle
  • Assemblage du modèle

Avantages

  • Accepte les ensembles de données volumineux d'une taille maximale de 1 To et comportant jusqu'à 200 colonnes.
  • Permet d'améliorer la stabilité et de réduire le temps d'entraînement en limitant l'espace de recherche des types d'architecture ou en ignorant la recherche d'architecture.
  • Permet d'améliorer la vitesse d'entraînement en sélectionnant manuellement le matériel utilisé pour l'entraînement et la recherche d'architecture.
  • Pour certaines méthodes d'entraînement de modèle, vous pouvez réduire la taille du modèle et améliorer la latence en modifiant la taille de l'ensemble.
  • Chaque composant peut être inspecté dans une interface graphique de pipelines puissante qui vous permet de voir les tables de données transformées, les architectures de modèle évaluées et bien d'autres détails.
  • Chaque composant offre une flexibilité et une transparence accrues, telles que la possibilité de personnaliser les paramètres et le matériel, d'afficher l'état des processus et les journaux, etc.

Entrée-Sortie

  • Utilise une table BigQuery ou un fichier CSV à partir de Cloud Storage en entrée.
  • Génère un modèle Vertex AI en sortie.
  • Les sorties intermédiaires incluent les statistiques et les divisions des ensembles de données.

Pour en savoir plus, consultez la page Workflow tabulaire pour les prévisions.

Étapes suivantes