强化学习概述
当一个孩子学习骑自行车时,并没有人去教其诸如牛顿力学等力学法则以及如何骑车的详细方法,也不必通过观看视频来学习骑自行车。事实上,自己尝试骑自行车,在多次失败的过程中找到一种骑自行车的方法。强化学习正如骑自行车的例子,它是一种学习方法,它在不知道控制对象的物理定律的情况下重复试错,以学习到所希望的控制方法。
机器人步行控制
试想一下通过监督学习来让机器人学习步行控制,我们需要尽可能多的”如果腿的关节处于这个角度并且速度是某值,那么就像这样转动电机A”。然而,当机器人行走时,对于每个时刻变化的状态,很难预先给出控制该电动机的正确做法。
如果换用强化学习又是一种什么样的结果?
我们可以将行走距离作为奖励提供给步行控制系统,并且重复试验多次。这样一来,强化学习系统会根据重复试验和获得的奖励自行改变控制规则,以”如果之前的试验种所做出的改变使我可以走得更远,则这种改变是正确的”为基础,我们可以在不教导机器人如何行走的情况下让机器人能渐渐行走更长的距离。
围棋游戏
强化学习也适用于围棋比赛。在这样的对战游戏的策略构建种,我们无须在每个阶段将强者视为教师数据来进行教导,仅通过把输赢的结果作为奖励(失败时的奖励是负值,也称为惩罚)即可。这样做,强化学习系统会一点一点地改变游戏方式并变得更强。学到的围棋系统比设计者本人更强大,这一点通过强化学习可以很容易实现。