用价值迭代法走迷宫(2)
实现Q学习算法(一种价值迭代算法)走迷宫。与Sarsa不同的之处在于其动作价值函数的更新公式不同。
实现Q学习算法(一种价值迭代算法)走迷宫。与Sarsa不同的之处在于其动作价值函数的更新公式不同。
实现Sarsa算法(一种价值迭代算法)走迷宫。
策略迭代法是一种强化学习算法,通过不断更新策略来学习。
作为强化学习的对照,本节中实现一个智能体,该智能体在迷宫中以随机搜索的方式朝目标前进。
强化学习的主要构成要素包括:智能体、环境、行动、奖励。
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,主要用于时变系统控制规则构建和对战博弈策略构建。
TCN加上自注意力机制做预测。
时间卷积网络TCN做预测。
BiLSTM加上自注意力机制做预测。
将单向LSTM改为双向LSTM(BiLSTM)。