0%

采用优先级经验回放机制(Prioritized Experience Replay)可以让智能体从过去经验中更高效地学习。

Dueling DQN是DQN的改进,通过调整网络结构使得网络可以学到更为准确的状态价值的估值,从而更有效地找到好的策略(学习所需的试验轮数更少)。

Double DQN是DQN的改进,通过解耦目标Q值动作的选择和目标Q值的计算这两步,来达到消除过度估计的问题。

DQN,全称是Deep Q Network,是一种把Q-Learning和DNN结合起来的模型架构。

深度强化学习是一种使用深度学习来进行强化学习的方法。

用强化学习来学习倒立摆的控制方法,这是一项比迷宫更复杂的任务。

实现Q学习算法(一种价值迭代算法)走迷宫。与Sarsa不同的之处在于其动作价值函数的更新公式不同。

策略迭代法是一种强化学习算法,通过不断更新策略来学习。

作为强化学习的对照,本节中实现一个智能体,该智能体在迷宫中以随机搜索的方式朝目标前进。