Actor-Critic算法

发表于 2021-05-30 更新于 2021-11-23

Actor-Critic算法由两部分组成：Actor和Critic。其中Actor用的是Policy Gradient，Critic用的是Q-learning，所以它实际上是策略迭代法和价值迭代法的结合。

我们有了像Q-learning这么好的算法，为什么还要再折腾出一个Actor-Critic算法呢？
原来，Actor-Critic算法中Actor的前身是Policy Gradients，这能让它毫不费力地在连续动作中选取合适的动作，而Q-learning做这件事会瘫痪。Critic的前身是Q-learning这类以值为基础的学习法，这让它能进行单步更新，而传统的Policy Gradients 是回合更新，学习效率比较低。
正因为策略迭代法和价值迭代法各有各的优缺点，所以人们提出了Actor-Critic算法让两者结合到了一起，Actor来选择动作，Critic来告诉Actor它选择的动作是否合适。在这一过程中，Actor不断迭代，得到每一个状态下选择每一动作的合理概率，Critic也不断迭代，不断完善每个状态下选择每一个动作的奖惩值。