L'apprentissage supervisé est une catégorie de machine learning qui utilise des ensembles de données étiquetées pour entraîner des algorithmes à prédire des résultats et à reconnaître des tendances. Contrairement à l'apprentissage non supervisé, les algorithmes d'apprentissage supervisé reçoivent un entraînement étiqueté afin d'apprendre la relation qui existe entre une entrée et les sorties correspondantes.
Les algorithmes de machine learning supervisé permettent aux entreprises de créer plus facilement des modèles complexes, capables de réaliser des prédictions précises. Par conséquent, ils sont largement utilisés dans divers secteurs et domaines, y compris la santé, le marketing, les services financiers, etc.
Nous allons aborder les principes fondamentaux de l'apprentissage supervisé dans l'IA, le fonctionnement des algorithmes d'apprentissage supervisé et certains de ses cas d'utilisation les plus courants.
Les nouveaux clients bénéficient d'un maximum de 300 $ de crédits pour essayer Vertex AI et d'autres produits Google Cloud.
Les données utilisées dans l'apprentissage supervisé sont étiquetées, ce qui signifie qu'elles contiennent des exemples d'entrées (appelées des caractéristiques) et de sorties appropriées (correspondant aux étiquettes). Les algorithmes analysent un grand ensemble de données de ces paires d'entraînement pour déduire la valeur de sortie souhaitée, lorsqu'on leur demande de faire une prédiction sur de nouvelles données.
Supposons que vous souhaitiez apprendre à un modèle à identifier des images d'arbres. Vous allez donc fournir un ensemble de données étiquetées qui contient de nombreux exemples d'arbres différents, ainsi que les noms de chaque essence. Vous laissez alors l'algorithme tenter de définir à quel arbre correspond chaque ensemble de caractéristiques, en fonction des sorties étiquetées. Vous pouvez ensuite tester le modèle en lui fournissant une image d'arbre et en lui demandant de deviner de quelle essence il s'agit. Si le modèle fournit une réponse incorrecte, vous pouvez continuer à l'entraîner et à ajuster ses paramètres avec davantage d'exemples, afin d'améliorer sa justesse et de réduire le plus possible les erreurs.
Une fois le modèle entraîné et testé, vous pouvez l'utiliser pour réaliser des prédictions sur des données inconnues en vous appuyant sur les connaissances acquises précédemment.
Les données utilisées dans l'apprentissage supervisé sont étiquetées, ce qui signifie qu'elles contiennent des exemples d'entrées (appelées des caractéristiques) et de sorties appropriées (correspondant aux étiquettes). Les algorithmes analysent un grand ensemble de données de ces paires d'entraînement pour déduire la valeur de sortie souhaitée, lorsqu'on leur demande de faire une prédiction sur de nouvelles données.
Supposons que vous souhaitiez apprendre à un modèle à identifier des images d'arbres. Vous allez donc fournir un ensemble de données étiquetées qui contient de nombreux exemples d'arbres différents, ainsi que les noms de chaque essence. Vous laissez alors l'algorithme tenter de définir à quel arbre correspond chaque ensemble de caractéristiques, en fonction des sorties étiquetées. Vous pouvez ensuite tester le modèle en lui fournissant une image d'arbre et en lui demandant de deviner de quelle essence il s'agit. Si le modèle fournit une réponse incorrecte, vous pouvez continuer à l'entraîner et à ajuster ses paramètres avec davantage d'exemples, afin d'améliorer sa justesse et de réduire le plus possible les erreurs.
Une fois le modèle entraîné et testé, vous pouvez l'utiliser pour réaliser des prédictions sur des données inconnues en vous appuyant sur les connaissances acquises précédemment.
Dans le contexte du machine learning, l'apprentissage supervisé se divise généralement en deux catégories : la classification et la régression.
Les algorithmes de classification sont utilisés pour regrouper des données en prédisant une étiquette catégorielle ou une variable de sortie en fonction des données d'entrée. La classification est utilisée lorsque les variables de sortie sont catégorielles, c'est-à-dire qu'il existe au moins deux classes.
Le filtre antispam de votre boîte de réception est l'un des exemples les plus courants d'algorithmes de classification utilisés. Dans ce contexte, un modèle d'apprentissage supervisé est entraîné à prédire si un e-mail est un spam ou non, à l'aide d'un ensemble de données contenant des exemples étiquetés de spams et d'e-mails légitimes. L'algorithme extrait des informations sur chaque e-mail, y compris l'expéditeur, l'objet, le corps du message, etc. Il utilise ensuite ces caractéristiques et les étiquettes de sortie correspondantes pour apprendre des modèles et attribuer un score qui indique si un e-mail est réel ou s'il s'agit d'un spam.
Les algorithmes de régression sont utilisés pour prédire une valeur réelle ou continue, lorsqu'ils détectent une relation entre au moins deux variables.
Un exemple courant de tâche de régression pourrait être la prédiction d'un salaire en fonction de l'expérience professionnelle. Un algorithme d'apprentissage supervisé reçoit ainsi des entrées liées à l'expérience professionnelle (par exemple, l'ancienneté, le secteur ou le domaine, la localisation géographique, etc.) et le niveau de salaire correspondant attribué. Une fois le modèle entraîné, il peut être utilisé pour prédire le salaire moyen en fonction de l'expérience professionnelle.
Les modèles d'apprentissage supervisé peuvent être utilisés pour différents cas d'utilisation métier, et permettent de répondre à un large éventail de problèmes. Voici quelques exemples courants d'apprentissage supervisé :
Systèmes de recommandation : les plates-formes en ligne et les services de streaming utilisent des algorithmes d'apprentissage supervisé pour proposer des recommandations basées sur le comportement antérieur des clients ou leur historique d'achat. Les modèles extraient des informations importantes sur le comportement d'un utilisateur et suggèrent des produits et contenus similaires.
La principale différence entre l'apprentissage supervisé et l'apprentissage non supervisé réside dans le type de données d'entrée utilisé pour entraîner le modèle. L'apprentissage supervisé utilise des ensembles de données d'entraînement étiquetées pour essayer d'enseigner à un modèle un objectif spécifique et prédéfini.
En comparaison, l'apprentissage non supervisé utilise des données non étiquetées et fonctionne de manière autonome pour essayer d'apprendre en autonomie la structure des données, sans recevoir d'instructions explicites.
Profitez de 300 $ de crédits gratuits et de plus de 20 produits Always Free pour commencer à créer des applications sur Google Cloud.