Données tabulaires Hello : créer un ensemble de données et entraîner un modèle de classification AutoML

Utilisez la console Google Cloud pour créer un ensemble de données tabulaire et entraîner un modèle de classification.

Créer un ensemble de données tabulaire

  1. Dans Google Cloud Console, dans la section Vertex AI, accédez à la page Ensembles de données.

    Accéder à la page Ensembles de données

  2. Cliquez sur Créer dans la barre de boutons pour créer un nouvel ensemble de données.

  3. Saisissez Structured_AutoML_Tutorial comme nom pour l'ensemble de données puis sélectionnez l'onglet Tabulaires.

  4. Sélectionnez l'objectif Régression/Classification.

    Laissez le paramètre Région défini sur us-central1.

  5. Cliquez sur Créer pour créer l'ensemble de données.

    Dans ce tutoriel, vous allez utiliser un ensemble de données bancaires publiques hébergé sur Cloud Storage.

  6. Dans le champ Sélectionner une source de données, cliquez sur Sélectionner des fichiers CSV depuis Cloud Storage.

  7. Dans le champ Chemin du fichier d'importation, saisissez cloud-ml-tables-data/bank-marketing.csv

  8. Cliquez sur Continuer.

Analyser l'ensemble de données

La section d'analyse vous permet d'afficher plus d'informations sur l'ensemble de données, telles que les valeurs manquantes ou NULL.

Étant donné que notre ensemble de données est correctement formaté pour ce tutoriel, vous n'avez rien à faire sur cette page et pouvez donc ignorer cette section.

  1. Facultatif. Cliquez sur Générer des statistiques pour afficher le nombre de valeurs manquantes ou NULL dans l'ensemble de données. Cette opération peut prendre jusqu'à 10 minutes.

  2. Facultatif. Cliquez sur l'une des colonnes de caractéristiques pour en savoir plus sur les valeurs des données.

Entraîner un modèle de classification AutoML

  1. Cliquez sur Entraîner le nouveau modèle.

  2. Dans le volet Méthode d'entraînement, vérifiez que l'ensemble de données que vous avez créé précédemment est sélectionné dans le champ Ensemble de données.

  3. Dans le champ Objectif, sélectionnez Classification.

  4. Vérifiez que la méthode d'entraînement AutoML est sélectionnée.

  5. Cliquez sur Continuer.

  6. Dans le volet Informations sur le modèle, sélectionnez Deposit pour la colonne cible, puis cliquez sur Continuer.

    La colonne cible correspond à ce sur quoi vont porter les prédictions, pour lesquelles le modèle est entraîné. Pour l'ensemble de données bank-marketing.csv, la colonne Deposit indique si le client a acheté un dépôt à terme (2 = oui, 1 = non).

    Le volet Options d'entraînement vous permet d'ajouter des caractéristiques et de transformer les données des colonnes. Si aucune colonne n'est sélectionnée, toutes les colonnes non cibles seront utilisées par défaut comme caractéristiques pour l'entraînement. Cet ensemble de données est prêt à l'emploi. Il n'est donc pas nécessaire d'appliquer des transformations.

  7. Cliquez sur Continuer.

  8. Dans le volet Options de calcul et tarifs, saisissez 1 pour le budget d'entraînement.

    Le budget d'entraînement détermine la durée réelle de l'entraînement mais comme cette durée inclut d'autres activités, l'ensemble du processus peut prendre plus d'une heure. Une fois l'entraînement terminé, le modèle s'affiche dans l'onglet "Modèles" sous la forme d'un lien actif accompagné d'une coche verte.

  9. Cliquez sur Démarrer l'entraînement.

Étape suivante

Votre modèle est en cours d'entraînement. Cette opération peut prendre une heure, voire plus. Vous recevrez un e-mail une fois l'entraînement terminé. Suivez alors la page suivante de ce tutoriel pour déployer votre modèle et demander une prédiction.

Ce tutoriel utilise un ensemble de données qui a été nettoyé et formaté pour l'entraînement AutoML, mais la plupart des données nécessitent un travail préparatoire avant de pouvoir être utilisées. La qualité de vos données d'entraînement influe sur l'efficacité des modèles que vous créez. Apprenez-en plus sur la préparation des données.

La recherche et la préparation de vos données sont essentielles pour garantir la justesse du modèle de machine learning. Apprenez-en plus sur les bonnes pratiques.

Apprenez-en plus sur la création d'un ensemble de données tabulaire.

Vertex AI propose deux méthodes d'entraînement de modèle : AutoML et l'entraînement personnalisé. AutoML vous permet de définir facilement un entraînement, même avec peu de connaissances sur le machine learning, tandis que l'entraînement personnalisé vous offre un contrôle total sur les fonctionnalités d'entraînement. Apprenez-en plus sur les méthodes d'entraînement.

Vertex AI examine le type de données sources et les valeurs de caractéristiques, puis déduit comment il utilisera cette caractéristique dans l'entraînement du modèle. Il est recommandé de vérifier le type de données de chaque colonne pour s'assurer qu'elles ont été interprétées correctement. Si nécessaire, vous pouvez spécifier une autre transformation parmi les transformations compatibles, pour n'importe quelle caractéristique. Apprenez-en plus sur les transformations.

Apprenez-en plus sur l'entraînement d'un modèle AutoML pour la classification ou la régression.