Chap3 finite mdp
第3章:有限马尔可夫决策过程 这一章主要读一下鱼书的对应章节 一、引入 在老虎机问题中,无论智能代理采取什么行动,之后要解决的问题都是一样的——寻找最好的老虎机拉动摇杆。 但MDP问题不同。例如,在围棋游戏中,落子后棋盘上的棋子排列会发生变化。智能代理采取的不同行动导致棋局每时每刻都在变化。智能代理需要考虑到棋局的转变,下出最佳的一手。 第2章中我们曾...
第3章:有限马尔可夫决策过程 这一章主要读一下鱼书的对应章节 一、引入 在老虎机问题中,无论智能代理采取什么行动,之后要解决的问题都是一样的——寻找最好的老虎机拉动摇杆。 但MDP问题不同。例如,在围棋游戏中,落子后棋盘上的棋子排列会发生变化。智能代理采取的不同行动导致棋局每时每刻都在变化。智能代理需要考虑到棋局的转变,下出最佳的一手。 第2章中我们曾...
第2章:多臂老虎机 一、引入 1. 定义 重复地在k个动作中进行选择。每次做出选择之后,你都会得到一定数值的奖励(return),奖励由你选择的动作的平稳概率分布产生。你的目标是在某一段时间内最大化总奖励的期望,比方说1000次选择之后。 2. 实例 对于有k个控制杆的老虎机,每一次动作选择就是拉动老虎机的一个控制杆,而奖励就是得到的奖金。通过多次的重复动作选择...
分层全连接神经网络 通俗例子:餐厅点餐系统 1)层级结构 输入层:顾客的基本信息(4个神经元) 年龄(20岁、30岁、40岁…) 性别(男/女) 时间(早餐/午餐/晚餐) 天气(晴天/雨天) 隐藏层1:顾客的可能喜好特征(6个神经元) 喜欢辣食程度 偏好甜食程度 ...
RL-Experiment 在命令行中使用pip等操作需要先激活所要pip的虚拟环境,比如D:\reinforcement-learning-an-introduction-master.venv\Scripts\activate,又如D:\python_code.venv\Scripts\activate,然后才能pip install等操作 千万不要打开cmd...
Prompt: dp算法的回溯是什么意思 Response: 在动态规划(Dynamic Programming, DP)中,回溯(Backtracing)指的是从最终解开始,通过已经计算好的状态信息,向前推导出构造最优解的具体方案。 回溯过程一般包含这些步骤: 首先用动态规划算法求解并填充DP表格 从最终状态开始,根据状态转移方程和已经计算好的值,回溯确定每一步的选择 ...
Prompt: dp算法的回溯是什么意思 Response: 在动态规划(Dynamic Programming, DP)中,回溯(Backtracing)指的是从最终解开始,通过已经计算好的状态信息,向前推导出构造最优解的具体方案。 回溯过程一般包含这些步骤: 首先用动态规划算法求解并填充DP表格 从最终状态开始,根据状态转移方程和已经计算好的值,回溯确定每一步的选择 ...
参考资料 missing-semester只是简单介绍, 正则表达式的更具体的内容参见《正则表达式必知必会》[美] Ben Forta 正则表达式教程 SSH 先打开wsl, 然后输入ssh tuofeilun即可登录 (或用termius) Claude Conversation Prompt: ssh myserver journalctl | grep ssh...
https://missing-semester-cn.github.io/2020/editors/
文件处理 mkdir ...: 创建目录 rm ...: 删除目录 touch ...: 创建文件 echo "..." > ...: 向文件写入( echo "Some text" > file.txt # 创建新文件或覆盖已有文件 echo "More text" >> file.txt # 追加到文件末尾 ...
FreeCodeCamp Shell Tutorial