深度强化学习
表格表示问题
在表格表示的Q学习中,表格行号对应于智能体的状态,列号对应于智能体的动作,表格中存储的是动作价值Q(s,a)。
智能体的状态的状态很好理解。在迷宫任务中,智能体的状态是指所在的方块的位置,在倒立摆任务中,智能体的状态是对四个变量分别进行离散化转换成的数字值。
智能体的动作是智能体可以采取的行动。在迷宫任务中,智能体可以在上下左右四个方向上移动,在倒立摆任务中,智能体可以在左右两个方向上移动。
动作价值Q(st,at)是在时刻t、状态st下采取动作at时将获得的折扣奖励总和。
表格表示的Q学习问题是,随着状态变量的类型数量增加,如果每个变量被精细地离散化,则表格中的行数会变得很大。例如,当以图像作为状态时,每个像素对应于状态变量,状态变量的数量变得非常大。50像素的方形图像将具有多达2500个状态变量。为了使用包含许多行的表格表示来适当地进行强化学习,需要做大量的实验。因此,用表格表示的强化学习解决具有大型状态的任务是不现实的。
深度强化学习
为了实现具有大量状态变量的强化学习,我们将不以表格形式表示动作价值函数,而采用深度神经网络表示动作价值函数。
神经网络输入层中的神经元数量与状态变量的数量相同。在倒立摆任务中有位置、速度、角度和角速度这四个变量,因此有4个输入神经元。输入层每个神经元输入的是每个状态变量的值,在输入神经网络时不需要离散化。
神经网络输出层中的神经元数量与动作类型的数量相同。在倒立摆任务中有两种类型的输出,分别表示向左推动和向右推动,因此有2个输出神经元。输出层每个神经元输出的值是动作价值函数Q(st,at)的值。也就是说,它输出在采用对应于该神经元的动作之后所获得的折扣奖励之和。然后,通过比较输出层各神经元输出的折扣奖励和来确定行动。换句话说,这是一个回归问题,需要求取具体的数值。