0%

pytorch实现优势动作评论算法(Advantage Actor Critic,A2C)。

Actor-Critic算法由两部分组成:Actor和Critic。其中Actor用的是Policy Gradient,Critic用的是Q-learning,所以它实际上是策略迭代法和价值迭代法的结合。