监督式学习中使用的数据是带标签的,这意味着其中的样本包含输入(称为特征)和正确输出(标签)。算法会分析包含这些训练对的大型数据集,以便在被要求根据新数据进行预测时,推断出正确的输出值。
例如,假设您想要训练一个模型来识别树木图片。您需要提供一个带标签的数据集,其中包含许多不同的树种和每个树种名称的样本。您可以让算法尝试根据带标签的输出来定义每种树的特征集。然后,您可以向模型展示一张树的图片,要求它推测树的种类,以此对模型进行测试。如果模型给出错误答案,您可以继续进行训练并使用更多样本来调整模型参数,以提高模型的准确率并最大限度地减少错误。
模型完成训练并通过测试后,您便可以让它根据先前学习的知识对未知数据进行预测。
监督式学习中使用的数据是带标签的,这意味着其中的样本包含输入(称为特征)和正确输出(标签)。算法会分析包含这些训练对的大型数据集,以便在被要求根据新数据进行预测时,推断出正确的输出值。
例如,假设您想要训练一个模型来识别树木图片。您需要提供一个带标签的数据集,其中包含许多不同的树种和每个树种名称的样本。您可以让算法尝试根据带标签的输出来定义每种树的特征集。然后,您可以向模型展示一张树的图片,要求它推测树的种类,以此对模型进行测试。如果模型给出错误答案,您可以继续进行训练并使用更多样本来调整模型参数,以提高模型的准确率并最大限度地减少错误。
模型完成训练并通过测试后,您便可以让它根据先前学习的知识对未知数据进行预测。
机器学习中的监督式学习通常分为两类:分类和回归。
分类算法根据输入数据预测分类标签或输出变量,用于对数据进行分组。当输出变量是分类(即存在两个或更多个类别)时使用分类算法。
分类算法最常见的应用之一是电子邮件收件箱中的垃圾邮件过滤器。监督式学习模型使用包含垃圾邮件和正常邮件有标签样本的数据集进行训练,用于预测一封电子邮件是否为垃圾邮件。算法会提取每封电子邮件的信息,包括发件人、主题行和正文等。然后,它会使用这些特征和相应的输出标签来学习模式,并分配一个分数来指示电子邮件是真实邮件还是垃圾邮件。
回归算法检测两个或多个变量之间的关系,以预测实值或连续值。
回归任务的一个常见示例是根据工作经验预测薪资。例如,向监督式学习算法输入与工作经验相关的数据(例如时长、行业或领域、地点等)和分配的相应薪资金额。模型经过训练后,便可用于根据工作经验预测平均薪资。
监督式学习模型可应用于许多不同的业务用例,帮助解决各类问题。常见的监督式学习示例包括:
推荐系统:在线平台和在线媒体服务使用监督式学习算法,根据客户过往的行为或购物记录推荐内容。这些模型会提取有关用户行为的重要信息,并推荐类似的产品和内容。
监督式学习与非监督式学习的主要区别是用于训练模型的输入数据类型。监督式学习使用带标签的训练数据集来训练模型,使其学习特定的预定义目标。
相比之下,非监督式学习使用无标签数据,在没有明确指示的情况下自主尝试和学习数据的结构。