Présentation des données tabulaires

Vertex AI vous permet d'effectuer des opérations de machine learning avec des données tabulaires à l'aide de processus et d'interfaces simples. Vous pouvez créer les types de modèles suivants pour vos problèmes de données tabulaires :

  • Les modèles de classification binaire prédisent un résultat binaire (l'une des deux classes). Utilisez ce type de modèle pour les questions fermées, c'est-à-dire dont la réponse peut être "oui" ou "non". Par exemple, vous pouvez créer un modèle de classification binaire pour prédire si un client achètera un abonnement. En règle générale, un problème de classification binaire nécessite moins de données que les autres types de modèle.
  • Les modèles de classification à classes multiples prédisent une classe à partir de trois classes distinctes ou plus. Utilisez ce type de modèle pour la catégorisation. Par exemple, en tant que revendeur, vous pouvez créer un modèle de classification à classes multiples pour segmenter les clients en différents personas.
  • Les modèles de régression prédisent une valeur continue. Par exemple, en tant que revendeur, vous pouvez créer un modèle de régression pour prédire le montant qu'un client dépensera le mois prochain.
  • Les modèles de prévision prédisent une séquence de valeurs. Par exemple, en tant que revendeur, vous souhaitez peut-être prévoir la demande quotidienne de vos produits pour les trois prochains mois afin de pouvoir anticiper convenablement les stocks de produits nécessaires.

Pour une introduction au machine learning avec des données tabulaires, consultez la page Présentation des données tabulaires. Pour en savoir plus sur les solutions d'IA Vertex, consultez les pages Solutions Vertex AI pour la classification et la régression et Solutions Vertex AI pour la prévision.

Un mot sur l'équité

Google s'engage à faire avancer la mise en place des pratiques d'IA responsables. À cette fin, nos produits de ML, y compris AutoML, sont conçus selon des principes de base tels que l'équité et le machine learning centré sur l'humain. Pour en savoir plus des bonnes pratiques de limitation des biais lors de la création de votre propre système de ML, consultez le guide sur l'inclusion dans le ML – AutoML.

Solutions Vertex AI pour la classification et la régression

Vertex AI propose les solutions suivantes pour la classification et la régression :

Workflow tabulaire pour AutoML de bout en bout

Le workflow tabulaire pour AutoML de bout en bout est le pipeline AutoML complet pour les tâches de classification et de régression. Il est semblable à l'API AutoML, mais vous permet de choisir les éléments à contrôler et les éléments à automatiser. Au lieu de disposer de contrôles pour l'ensemble du pipeline, vous disposez de contrôles pour chaque étape du pipeline. Ces contrôles du pipeline incluent les éléments suivants :

  • Répartition des données
  • Extraction de caractéristiques
  • Recherche d'architecture
  • Entraîner le modèle
  • Assemblage du modèle
  • Distillation du modèle

Avantages

  • Accepte les ensembles de données volumineux de plusieurs To et comportant jusqu'à 1 000 colonnes.
  • Permet d'améliorer la stabilité et de réduire le temps d'entraînement en limitant l'espace de recherche des types d'architecture ou en ignorant la recherche d'architecture.
  • Permet d'améliorer la vitesse d'entraînement en sélectionnant manuellement le matériel utilisé pour l'entraînement et la recherche d'architecture.
  • Permet de réduire la taille du modèle et d'améliorer la latence avec la distillation ou en modifiant la taille de l'ensemble.
  • Chaque composant AutoML peut être inspecté dans une interface graphique de pipelines puissante qui vous permet de voir les tables de données transformées, les architectures de modèle évaluées et bien d'autres détails.
  • Chaque composant AutoML offre une flexibilité et une transparence accrues, telles que la possibilité de personnaliser les paramètres et le matériel, d'afficher l'état des processus et les journaux, etc.

Pour en savoir plus sur les workflows tabulaires, consultez la page Workflows tabulaires sur Vertex AI. Pour en savoir plus sur le workflow tabulaire pour AutoML de bout en bout, consultez la page Workflow tabulaire pour AutoML de bout en bout.

Workflow tabulaire pour TabNet

Le workflow tabulaire pour TabNet est un pipeline qui vous permet d'entraîner des modèles de classification ou de régression. TabNet utilise une attention séquentielle pour choisir les caractéristiques à partir desquelles établir le raisonnement, à chaque étape de décision. Cela permet une interprétabilité et un apprentissage plus efficace, car la capacité d'apprentissage est utilisée pour les caractéristiques les plus saillantes.

Avantages

  • Sélectionne automatiquement l'espace de recherche d'hyperparamètres approprié en fonction de la taille de l'ensemble de données, du type de prédiction et du budget d'entraînement.
  • Intégré à Vertex AI. Le modèle entraîné est un modèle Vertex AI. Vous pouvez exécuter des prédictions par lot ou déployer immédiatement le modèle pour obtenir des prédictions en ligne.
  • Fournit l'interprétabilité des modèles inhérente. Vous pouvez obtenir des informations sur les fonctionnalités utilisées par TabNet pour prendre sa décision.
  • Compatible avec l'entraînement avec GPU.

Pour en savoir plus sur les workflows tabulaires, consultez la page Workflows tabulaires sur Vertex AI. Pour en savoir plus sur le workflow tabulaire pour TabNet, consultez la section Workflow tabulaire pour TabNet.

Workflow tabulaire pour wide et deep learning

Le workflow tabulaire pour wide et deep learning est un pipeline que vous pouvez utiliser pour entraîner des modèles de classification ou de régression. Les modèles wide et deep learning permettent d'entraîner conjointement des modèles linéaires larges et des réseaux de neurones profonds. Ils combinent les avantages de la mémorisation et de la généralisation. Dans certains tests en ligne, les résultats ont montré que les modèles wide et deep learning ont augmenté de manière significative les acquisitions d'applications Google Store par rapport aux modèles uniquement larges et uniquement profonds.

Avantages

  • Intégré à Vertex AI. Le modèle entraîné est un modèle Vertex AI. Vous pouvez exécuter des prédictions par lot ou déployer immédiatement le modèle pour obtenir des prédictions en ligne.

Pour en savoir plus sur les workflows tabulaires, consultez la page Workflows tabulaires sur Vertex AI. Pour en savoir plus sur le workflow tabulaire pour le wide and deep learning, consultez la page Workflow tabulaire pour le wide et deep learning.

Classification et régression avec AutoML

Vertex AI propose des pipelines intégrés entièrement gérés pour les tâches de classification ou de régression de bout en bout. Vertex AI recherche l'ensemble optimal d'hyperparamètres, entraîne plusieurs modèles avec plusieurs ensembles d'hyperparamètres, puis crée un seul modèle final à partir d'un ensemble des meilleurs modèles. Vertex AI prend en compte les réseaux de neurones et les arbres de décision à boosting pour les types de modèle.

Avantages

  • Facile à utiliser : le type de modèle, les paramètres du modèle et le matériel sont sélectionnés pour vous

Pour en savoir plus, consultez la section Présentation de la classification et de la régression.

Solutions Vertex AI pour la prévision

Vertex AI propose les solutions suivantes pour la prévision :

Workflow tabulaire pour les prévisions

Le workflow tabulaire pour les prévisions est le pipeline complet pour les tâches de prévision. Il est semblable à l'API AutoML, mais vous permet de choisir les éléments à contrôler et les éléments à automatiser. Au lieu de disposer de contrôles pour l'ensemble du pipeline, vous disposez de contrôles pour chaque étape du pipeline. Ces contrôles du pipeline incluent les éléments suivants :

  • Répartition des données
  • Extraction de caractéristiques
  • Recherche d'architecture
  • Entraîner le modèle
  • Assemblage du modèle

Avantages

  • Accepte les ensembles de données volumineux d'une taille maximale de 1 To et comportant jusqu'à 200 colonnes.
  • Permet d'améliorer la stabilité et de réduire le temps d'entraînement en limitant l'espace de recherche des types d'architecture ou en ignorant la recherche d'architecture.
  • Permet d'améliorer la vitesse d'entraînement en sélectionnant manuellement le matériel utilisé pour l'entraînement et la recherche d'architecture.
  • Pour certaines méthodes d'entraînement de modèle, vous pouvez réduire la taille du modèle et améliorer la latence en modifiant la taille de l'ensemble.
  • Chaque composant peut être inspecté dans une interface graphique de pipelines puissante qui vous permet de voir les tables de données transformées, les architectures de modèle évaluées et bien d'autres détails.
  • Chaque composant offre une flexibilité et une transparence accrues, telles que la possibilité de personnaliser les paramètres et le matériel, d'afficher l'état des processus et les journaux, etc.

Pour en savoir plus sur les workflows tabulaires, consultez la page Workflows tabulaires sur Vertex AI. Pour en savoir plus sur le workflow tabulaire pour les prévisions, consultez la page Workflow tabulaire pour les prévisions

Prévision avec AutoML

Vertex AI propose un pipeline intégré et entièrement géré pour les tâches de prévision de bout en bout. Vertex AI recherche l'ensemble optimal d'hyperparamètres, entraîne plusieurs modèles avec plusieurs ensembles d'hyperparamètres, puis crée un seul modèle final à partir d'un ensemble des meilleurs modèles. Vous pouvez choisir l'une des méthodes d'entraînement de modèles suivantes : Encodeur dense de séries temporelles (TiDE), Transformateur de fusion temporelle (TFT), AutoML ou Seq2Seq+. Vertex AI ne prend en compte que les réseaux de neurones pour le type de modèle.

Avantages

  • Facile à utiliser: les paramètres et le matériel du modèle sont sélectionnés pour vous.

Pour en savoir plus, consultez la section Présentation des prévisions.

Prévision avec BigQuery ML ARIMA_PLUS

BigQuery ML ARIMA_PLUS est un modèle de prévision univarié. En tant que modèle statistique, il est plus rapide à entraîner qu'un modèle basé sur des réseaux de neurones. Nous vous recommandons d'entraîner un modèle BigQuery ML ARIMA_PLUS si vous devez effectuer de nombreuses itérations rapides d'entraînement de modèle ou si vous avez besoin d'une référence peu coûteuse pour évaluer d'autres modèles.

Comme Prophet, BigQuery ML ARIMA_PLUS tente de décomposer chaque série temporelle en tendances, saisons et jours fériés, ce qui génère une prévision à l'aide de l'agrégation des prédictions de ces modèles. Cependant, l'une des nombreuses différences est que BQML ARIMA+ utilise ARIMA pour modéliser le composant de tendance, tandis que Prophet tente d'ajuster une courbe à l'aide d'un modèle logistique ou linéaire par fragment.

Google Cloud propose un pipeline pour l'entraînement d'un modèle BigQuery ML ARIMA_PLUS et un autre pour obtenir des prédictions par lot à partir d'un modèle BigQuery ML ARIMA_PLUS. Les deux pipelines sont des instances de Vertex AI Pipelines provenant des composants du pipeline Google Cloud (GCPC).

Avantages

  • Facile à utiliser: les paramètres et le matériel du modèle sont sélectionnés pour vous.
  • Rapide: l'entraînement de modèle offre une référence à faible coût pour comparer d'autres modèles.

Pour en savoir plus, consultez la page Effectuer des prévisions avec ARIMA+.

Prévision avec Prophet

Prophet est un modèle de prévision géré par Meta. Consultez l'article sur Prophet pour obtenir des détails sur l'algorithme et la documentation pour en savoir plus sur la bibliothèque.

Comme BigQuery ML ARIMA_PLUS, Prophet tente de décomposer chaque série temporelle en tendances, saisons et jours fériés, afin de produire une prévision à l'aide de l'agrégation des prédictions de ces modèles. Cependant, une différence importante est que BQML ARIMA+ utilise ARIMA pour modéliser le composant de tendance, tandis que Prophet tente d'ajuster une courbe à l'aide d'un modèle logistique ou linéaire par fragments.

Google Cloud propose un pipeline pour l'entraînement d'un modèle Prophet et un autre pour obtenir des prédictions par lot à partir d'un modèle Prophet. Les deux pipelines sont des instances de Vertex AI Pipelines provenant des composants du pipeline Google Cloud (GCPC).

L'intégration de Prophet à Vertex AI vous permet d'effectuer les opérations suivantes :

Bien que Prophet soit un modèle multivarié, Vertex AI n'accepte qu'une version univariée de ce modèle.

Avantages

  • Flexible: vous pouvez améliorer la vitesse d'entraînement en sélectionnant le matériel utilisé pour l'entraînement.

Pour en savoir plus, consultez Effectuer des prévisions avec Prophet.

Étapes suivantes