强化学习 (RL) 是一种机器学习,其中“智能体”通过与环境互动来学习最佳行为。该智能体不是依赖显式编程或标注数据集,而是通过不断试错来学习,从而获得对其操作的奖励或惩罚形式的反馈。这一过程与人们在自然学习时通常采用的方式类似,因此强化学习是创建能够解决复杂问题的智能系统的强大方法。
强化学习就是学习如何做出决策。想象一下,一个智能体(可以是软件程序,也可以是机器人)在环境中导航。这个环境可以是实体空间、虚拟游戏世界,甚至是市场。智能体在此环境中执行操作,这些操作可能会导致某些结果,其中一些结果比其他结果更理想。
智能体的目标是在一段时间内尽可能多地赚取奖励。为此,它会学习政策。政策本质上是一种策略,用于告诉智能体在不同情况下应采取什么行动。该政策通过多次迭代与环境的互动来进行完善。
为了进行说明,请假设有一个下棋 AI。该智能体的操作是指它在棋盘上的走棋。环境是游戏的当前状态,奖励是赢得游戏。通过反复对弈并根据走棋反馈,强化学习智能体可以了解哪些操作更有可能带来胜利。
强化学习中的学习过程由一个反馈环驱动,该反馈环包含四个关键要素:
反馈环分为以下几个步骤:
这种反复尝试、获取反馈和改进规则的过程会一直持续下去,直到系统在一段时间后学会获得最多奖励的最佳方法。
强化学习主要分为两种类型:基于模型的强化学习和无模型的强化学习。
在基于模型的强化学习中,智能体尝试构建环境的内部模型。该模型使智能体能够在实际采取操作之前预测操作的后果,从而实现更有计划、更具战略性的方法。
想象一下,一个机器人正在学习如何走迷宫。基于模型的强化学习智能体将尝试描绘迷宫的内部布局。然后,它会使用该模型来规划路径,在实际移动之前模拟不同的操作及其预测结果。
另一方面,无模型强化学习不依赖于构建环境的显式模型。相反,它侧重于根据收到的奖励将操作与值相关联,直接学习最优政策。
回到迷宫示例,无模型智能体不会费心绘制整个迷宫的地图。相反,它仅根据以往的经验和获得的奖励,学习哪些操作(例如,在特定路口左转或右转)更有可能找到出口。
虽然目标始终是将奖励最大化,但不同的强化学习技术提供了不同的政策来实现这一目标。我们回到迷宫中的机器人:
强化学习是一种最适合某些特定场景的强大工具。以下是一些强化学习表现出色的示例:
复杂环境具有多种状态和操作
强化学习可以应对传统编程或基于规则的系统显得过于笨拙的情况。
通过互动生成数据的情形
当智能体能够通过主动与环境互动并接收反馈来学习时,强化学习就会蓬勃发展。
目标涉及长期优化
对于需要随着时间的推移最大限度地提高累积奖励的任务,强化学习可能非常适合。
强化学习是解决难题的好方法,但必须考虑它的优缺点。了解这些可能的优势和挑战有助于确定强化学习是否适合不同的作业以及如何使用它。
强化学习能够通过交互学习复杂的行为,因此适合广泛的应用场景,包括:
强化学习可以通过学习用户互动来帮助实现个性化推荐。通过将点击、购买或观看时长视为信号,强化学习算法可以优化商品推荐引擎,最大限度地提高用户互动度和满意度。例如,音乐在线媒体服务可以使用强化学习来推荐符合用户不断变化的偏好的歌曲或音乐人。
游戏行业已经接受了强化学习,并使用它来开发高技能的游戏智能体。这些通过强化学习训练的 AI 智能体在复杂游戏中表现出了惊人的熟练度,展现了高层次的战略思维和决策能力。其中,DeepMind 创建的 AlphaGo 和 AlphaZero 就是著名的例子,它们在国际象棋等游戏中达到了顶尖水平,展现了强化学习的强大力量。
强化学习可帮助机器人学习复杂的运动技能,并穿越充满挑战的环境。通过奖励机器人做出理想行为(例如抓取物体或高效移动),强化学习可以帮助自动执行需要灵活性和适应性的任务。这项技术可应用于制造业、物流业,甚至医疗保健行业,例如机器人可协助进行手术或护理患者。
开发强化学习系统需要一个强大的平台来训练智能体,以及一个可伸缩的环境来部署智能体。Google Cloud 提供了完成以下操作所需的组件: