Comment créer et gérer les jeux de données sous Vertex AI
Priyanka Vergadia
Staff Developer Advocate, Google Cloud
Essayer GCP
Les nouveaux clients peuvent explorer et évaluer Google Cloud avec des conditions exceptionnelles.
EssayerCette année, à l’occasion de Google I/O, Google Cloud a introduit Vertex AI. Cette nouvelle plateforme unifie tous nos services ML (Machine Learning) en un environnement unique, permettant de construire et gérer de façon fluide et efficace le cycle de vie des projets ML. À l’occasion d’un précédent billet, nous vous avons proposé une découverte rapide de Vertex AI et montré comment le service supporte l’intégralité de votre workflow ML – de la gestion des données jusqu’aux prédictions. Avec ce nouveau billet, nous vous proposons de découvrir comment gérer vos ensembles de données avec Vertex AI.
De plus en plus d’entreprises cherchent à faire parler leurs données et à obtenir des prédictions pour soutenir leur activité et les aider à s’aventurer sur de nouveaux marchés. Pour mener à bien ce type de démarche, elles ont souvent besoin de modèles ML personnalisés. Modèles que toutes les entreprises n’étaient jusqu’ici pas en mesure de créer ou même d’utiliser. C’est là que Vertex AI intervient en changeant la donne. Cette nouvelle plateforme Google Cloud fournit des outils optimisés pour chaque étape du flux ML, de la gestion des jeux de données aux différentes façons de construire un modèle, de l’évaluer, de le déployer et d’en tirer des prédictions. Elle s’adapte aux différents niveaux d’expertise en ML, de sorte qu’il n’est nullement nécessaire d’être un expert en Machine Learning pour tirer avantage de Vertex AI.
Types de données utilisables dans Vertex AI
Les jeux de données constituent la première étape de tout workflow ML. Elles sont nécessaires pour démarrer un apprentissage… et il en faut beaucoup !
Actuellement, Vertex AI peut gérer quatre types de jeux de données : images, tables, textes, et vidéos.
Image
Avec les jeux de données de type Image vous pouvez faire :
- De la classification : en identifiant des éléments au sein de l’image.
- De la détection : en identifiant la position d’un élément donné dans l’image.
- De la segmentation : en assignant des étiquettes à des régions de pixels dans l’image.
Afin d’être certain que votre modèle fonctionne comme attendu en production, assurez-vous pendant la phase d’apprentissage d’utiliser des similaires à celles qu’enverront vos utilisateurs. Par exemple, si les utilisateurs sont susceptibles d’envoyer des photos de mauvaise qualité, assurez-vous de bien disposer d’images floues ou en basse résolution dans votre jeu de données d’apprentissage. N’oubliez pas d’inclure différents angles, contextes et résolutions. Nous vous recommandons d’utiliser au moins un millier d’images par étiquette, autrement dit par élément que vous voulez identifier. Il est bien entendu possible de commencer avec un minimum de 10 images par étiquette. Cependant, plus vous fournirez d’exemples, plus votre modèle sera pertinent.
Table
Les jeux de données tabulaires, les tableaux, vous permettent de réaliser :
- Des régressions : pour prédire une valeur numérique.
- Des classifications : pour prédire une catégorie associée à un exemple donné.
- Des prévisions : pour prédire la probabilité d’évènements ou de demandes.
Les jeux de données tabulaires sous Vertex AI supportent des centaines de colonnes et des milliers de lignes.
Texte
Sous Vertex AI, les jeux de données textuels sont utilisables pour réaliser :
- De la classification : attribuer une ou plusieurs étiquettes à un document entier.
- De l’extraction d’entités : identifier des entités textuelles au sein d’un document telles que « trop cher » ou « bon rapport qualité/prix ».
- De l’analyse de sentiments : identifier le sentiment général exprimé dans un bloc de texte afin, par exemple, de déterminer si un client est satisfait, contrarié ou frustré.
Vidéo
Les jeux de données de type vidéo sont exploitables à des fins de :
- Classification : pour étiqueter des vidéos entières, des séquences ou des images.
- Reconnaissance d’actions : pour identifier des actions spécifiques dans des séquences vidéo
- Suivi d’objets : pour traquer des objets spécifiques dans une vidéo.
Créer et gérer des jeux de données dans Vertex AI
Après avoir étudié les différents types de données utilisables, voyons comment créer et gérer ces ensembles de données. Dans la Console Cloud, allez sur la page du tableau de bord de Vertex AI et cliquez sur Datasets, puis sur « Créer projet / Create Project ».
Imaginons que vous vouliez classer des éléments au sein d’un jeu de photos. Créez un Dataset Image et sélectionnez « Image Classification ». Importez directement les fichiers présents sur votre ordinateur. Ils seront transférés et stockés dans Cloud Storage. Ajoutez ensuite les étiquettes correspondantes, autrement dit les éléments que vous souhaitez identifier au sein de vos images. Si vous avez déjà une liste d’étiquettes, vous pouvez l’importer à partir d’un fichier CSV contenant vos URLs d’images et leurs étiquettes attachées. Si vos images ne sont pas étiquetées et que vous souhaitez réaliser un apprentissage assisté (supervisé par un humain), Vertex AI propose un service d’étiquetage des données qui simplifie le processus. Une fois les fichiers images téléchargés, vous pouvez aisément créer des étiquettes et les assigner aux images correspondantes. Vous pouvez également analyser automatiquement les images dans le jeu de données, obtenir le nombre d'images par étiquette et contrôler quelques autres propriétés.
Selon les catégories de données utilisées, les options peuvent légèrement varier. Par exemple, si vous utilisez des données tabulaires, vous pouvez envoyer un fichier CSV depuis votre ordinateur, en choisir un sur Cloud Storage ou sélectionner directement une table à partir de BigQuery. Une fois le tableau sélectionné, les données sont immédiatement disponibles pour l'analyse.
À venir prochainement
Ceci conclut notre bref aperçu de la création et de la gestion des jeux de données dans Vertex AI. Dans un prochain épisode, nous explorerons une nouvelle étape du flux ML : la construction et la formation de modèles ML.
Si cet exposé vous a intéressé, d’autres épisodes autour de « l’IA simplifiée » sont d’ores et déjà disponibles sur YouTube. Vous pouvez aussi en apprendre davantage sur Vertex AI en suivant ce lien.