强化学习构成要素

强化学习的主要构成要素包括:智能体、环境、行动、奖励。

智能体(Agent)

智能体是可以采取行动的智能个体。

环境(Environment)

环境指的就是智能体行走于其中的世界。环境的输入是智能体当前的状态和行动,输出是智能体的奖励和智能体下一步的状态。

行动(Action)

行动,是指智能体可以采取的行动,其构成的集合常用A来表示。在电子游戏中,这个行动列表可能包括向右奔跑或者向左奔跑,向高出处跳或者向低处跳,下蹲或者站住不动。在股市中,这个行动列表可能包括买入,卖出或者持有任何有价证券或者它们的变体。在处理空中飞行的无人机时,行动选项包含三维空间中的很多速度和加速度。

奖励(Reward)

奖励是我们衡量某个智能体的行动成败的反馈。它可能是即时的,也可能是迟滞的。