Floyd's Blog

Chap3 finite mdp

第3章:有限马尔可夫决策过程 这一章主要读一下鱼书的对应章节 一、引入 在老虎机问题中,无论智能代理采取什么行动,之后要解决的问题都是一样的——寻找最好的老虎机拉动摇杆。 但MDP问题不同。例如,在围棋游戏中,落子后棋盘上的棋子排列会发生变化。智能代理采取的不同行动导致棋局每时每刻都在变化。智能代理需要考虑到棋局的转变,下出最佳的一手。 第2章中我们曾...

Chap2 multi-arm-banner

第2章:多臂老虎机 一、引入 1. 定义 重复地在k个动作中进行选择。每次做出选择之后,你都会得到一定数值的奖励(return),奖励由你选择的动作的平稳概率分布产生。你的目标是在某一段时间内最大化总奖励的期望,比方说1000次选择之后。 2. 实例 对于有k个控制杆的老虎机,每一次动作选择就是拉动老虎机的一个控制杆,而奖励就是得到的奖金。通过多次的重复动作选择...