ByteCat

Minimax-Q训练简化版五子棋AI

发表于 2021-07-03 更新于 2025-08-18

用Minimax-Q自我博弈 + Pygame构建一个简化版五子棋人机对战小游戏。

发表于 2021-07-03 更新于 2025-08-17

本篇探讨了如何用强化学习训练一个双人对抗类游戏AI。

发表于 2021-07-01 更新于 2025-08-17

Stable-Baselines3是一个基于PyTorch的强化学习算法库。

发表于 2021-05-30 更新于 2023-04-21

一个使用强化学习解决网络威胁响应问题的案例。

发表于 2021-05-30 更新于 2023-04-18

一个使用强化学习解决库存管理问题的案例。

发表于 2021-05-30 更新于 2022-03-28

pytorch实现优势动作评论算法(Advantage Actor Critic，A2C)。

发表于 2021-05-30 更新于 2021-11-23

Actor-Critic算法由两部分组成：Actor和Critic。其中Actor用的是Policy Gradient，Critic用的是Q-learning，所以它实际上是策略迭代法和价值迭代法的结合。

发表于 2021-05-28 更新于 2022-03-28

采用优先级经验回放机制（Prioritized Experience Replay）可以让智能体从过去经验中更高效地学习。

发表于 2021-05-27 更新于 2022-03-28

Dueling DQN是DQN的改进，通过调整网络结构使得网络可以学到更为准确的状态价值的估值，从而更有效地找到好的策略（学习所需的试验轮数更少）。

发表于 2021-05-22 更新于 2022-03-28

Double DQN是DQN的改进，通过解耦目标Q值动作的选择和目标Q值的计算这两步，来达到消除过度估计的问题。