Actor-Critic算法

我们有了像Q-learning这么好的算法,为什么还要再折腾出一个Actor-Critic算法呢?
原来,Actor-Critic算法中Actor的前身是Policy Gradients,这能让它毫不费力地在连续动作中选取合适的动作,而Q-learning做这件事会瘫痪。Critic的前身是Q-learning这类以值为基础的学习法,这让它能进行单步更新,而传统的Policy Gradients 是回合更新,学习效率比较低。
正因为策略迭代法和价值迭代法各有各的优缺点,所以人们提出了Actor-Critic算法让两者结合到了一起,Actor来选择动作,Critic来告诉Actor它选择的动作是否合适。在这一过程中,Actor不断迭代,得到每一个状态下选择每一动作的合理概率,Critic也不断迭代,不断完善每个状态下选择每一个动作的奖惩值。