Fonctionnalités et capacités d'AutoML Tables

Cette page décrit comment AutoML Tables vous permet, à vous et à votre équipe, de créer des modèles très performants à partir de données tabulaires.

Consultez notre page Problèmes connus pour connaître les problèmes connus actuels, et les moyens de les éviter ou d’y remédier.

AutoML Tables est un service couvert par les obligations de Google définies dans les Conditions relatives à la sécurité et au traitement des données.

Formats de données compatibles

AutoML Tables permet de créer des données d’entraînement nettoyées et efficaces en fournissant des informations sur les données manquantes, la corrélation, la cardinalité et la répartition pour chacune de vos caractéristiques. De plus, l'importation des données et l'affichage des informations étant gratuits, les frais liés à AutoML Tables ne vous sont facturés qu'à partir du moment où vous commencez à entraîner votre modèle.

Extraction de caractéristiques

Lorsque vous démarrez l'entraînement, AutoML Tables effectue automatiquement les tâches courantes d'extraction de caractéristiques, y compris :

  • la normalisation et la segmentation des caractéristiques numériques ;
  • la création de l'encodage one-hot et les intégrations pour les caractéristiques catégorielles ;
  • le traitement de base pour les caractéristiques au format texte ;
  • l'extraction des caractéristiques de date et d'heure pour les colonnes d'horodatage.

Pour plus d'informations, consultez la page Préparation des données effectuée automatiquement par AutoML Tables.

Entraînement de modèle

Test de modèle en parallèle

Lorsque vous démarrez l'entraînement du modèle, AutoML Tables se saisit de votre ensemble de données et commence à entraîner pour plusieurs architectures de modèle en même temps. Cela nous permet de déterminer rapidement l'architecture de modèle la plus adaptée à vos données, sans avoir à exécuter une série d'itérations sur les nombreuses architectures de modèle possibles. AutoML Tables teste les données d'entraînement pour les architectures suivantes :

  • Linéaire
  • Réseau de neurones profond feedforward
  • Boosting de gradient sur arbre de décision
  • AdaNet
  • Ensembles de différentes architectures de modèle

Les nouvelles architectures de modèle issues de la communauté de recherche seront ajoutées progressivement.

Évaluation du modèle et création finale

À partir de vos ensembles d'entraînement et de validation, nous déterminons la meilleure architecture de modèle pour vos données. Nous entraînons ensuite deux autres modèles, en utilisant les paramètres et l'architecture déterminés lors de la phase de test en parallèle :

  1. Un modèle entraîné avec vos ensembles d'entraînement et de validation

    Nous utilisons votre ensemble de test pour fournir l'évaluation du modèle sur ce modèle.

  2. Un modèle entraîné avec vos ensembles d'entraînement, de validation et de test

    C’est le modèle que nous vous proposons d’utiliser pour réaliser des prédictions.

Choisir AutoML Tables ou BigQuery ML

Si vous recherchez une expérimentation ou itération rapide sur les données à inclure dans le modèle et souhaitez pour cela utiliser des types de modèle plus simples (comme la régression logistique), optez plutôt pour BigQuery ML.

Vous souhaiterez probablement travailler directement dans l'interface d'AutoML Tables si vous avez déjà finalisé les données et que vos conditions sont les suivantes :

  • Vous optimisez pour augmenter la qualité du modèle (précision, RMSE faible, etc.) sans avoir à effectuer manuellement l'extraction de caractéristiques, la sélection du modèle, l'assemblage, etc.

  • Vous êtes disposé à attendre plus longtemps pour obtenir cette qualité de modèle. AutoML Tables nécessite au moins une heure pour entraîner un modèle, car les options de modélisation à expérimenter sont plus nombreuses. À l'inverse, BigQuery ML est en mesure de renvoyer des modèles en quelques minutes, car il suit au plus près les architectures, les valeurs de paramètre et les plages que vous avez définis.

  • Vous avez un large éventail d'entrées de caractéristiques (au-delà des nombres et des classes). Cet aspect devrait bénéficier de l'extraction de caractéristique automatisée supplémentaire fournie par AutoML Tables.

Transparence du modèle et Cloud Logging

Vous pouvez afficher la structure de votre modèle AutoML Tables à l'aide de Cloud Logging. Logging permet d'afficher les hyperparamètres du modèle final, ainsi que les hyperparamètres et les valeurs d'objectif utilisés lors de la validation du modèle.

Pour plus d'informations, consultez la section Logging.

Explicabilité

Nous savons que vous devez pouvoir expliquer la relation de vos données avec le modèle final et les prédictions qu'il génère. Nous vous proposons deux méthodes principales pour mieux comprendre votre modèle et son fonctionnement :

Exportation des données de test

Vous pouvez exporter votre ensemble de test, ainsi que les prédictions créées par votre modèle. Cette fonctionnalité vous donne un aperçu des performances du modèle sur des lignes de données d'entraînement spécifiques. L'examen de votre ensemble de test et de ses résultats vous aidera à identifier les types de prédictions les moins performants et à améliorer vos données pour obtenir un modèle de meilleure qualité.