lec2
类的一般形式 ![[Pasted image 20250228160938.png]] 非静态方法:又称实例方法, 如果方法将被类的实例调用, 那么它就应该是非静态方法。 If the method needs to use “my instance variables”, the method must be non-static. ...
类的一般形式 ![[Pasted image 20250228160938.png]] 非静态方法:又称实例方法, 如果方法将被类的实例调用, 那么它就应该是非静态方法。 If the method needs to use “my instance variables”, the method must be non-static. ...
1️⃣总结 Timing Tests:测量算法时间效率的方法 (stopwatch, microsec/op) 条件断点 2️⃣IntelliJ Configuration : 1)源代码根目录 为什么lab1和其他文件的颜色不一样?而且在application的main设置中也无法选择lab1之外的.java文件 lab1 文件夹显示为蓝色,而其他文件夹 ...
Debugging-guide Debug 调试模式下, 当前高亮部分并非程序已执行的步骤, 而是程序将要执行的. 如果一个类不含有main(String[] args)而只写了一些方法, 那么我们会发现它在IntelliJ中也可以被run或debug, 只不过运行/调试的是调用它的那另一个类!(如果该类成员未被其他类调用则无法运行) ...
打开Git 打开git bash cd /d/cs61b 使用Git Bash提交至GitHub Q: 如何连接代码目录和GitHub仓库 首先,在你的本地目录(/d/cs61b)初始化 Git 仓库: git init 添加远程仓库: git remote add origin https://github.com/blackblake/cs...
实验 isTmax (int x) /* 返回最大的二进制补码数(32位数) */ int isTmax(int x) { return ~x>>31; } 为什么不对? 答:未考虑==符号右移== 在二进制补码表示中,最大的整数是 0x7FFFFFFF(十进制 2147483647),其二进制为 01111111 11111111 11111111 111111...
1️⃣地址的表示 一个int变量的“地址”为0x100,则它的4个字节被存储在内存的0x100, 0x101, 0x102, 0x103 疑问:0x101比0x100只多了1bit,为什么能存下8bit的字节? 解答:地址本身只是一个标识符,用来定位内存中的位置,而不是表示其中存储的数据量; 所以当内存地址从 0x100 增加到 0x101 时,我们是在线性地址空间中前进了一...
掌握基础知识后的进阶路径可分为四个阶段: 一、实践强化 经典算法复现 使用PyTorch/TensorFlow实现DQN、PPO等经典算法(参考《动手学强化学习》代码案例) 在OpenAI Gym/MuJoCo等标准环境中测试性能(如Atari游戏、HalfCheetah) 记录超参数调整过程(如学习率从1e-3到5e-5的收敛曲线) ...
第6章:时序差分学习 一、P119 MC误差可写为TD误差之和 1)证明 2)为什么如果V变化了,此式就不成立? 当V变化时,TD 误差中的$V(S_k)$ 和$V(S_{k+1})$不再是同一版本的价值函数。这会破坏原推导中相邻项相互抵消的机制,导致等式失效。 二、MC vs. TD 图6.1通过对比蒙特卡洛(MC)方法和时序差分(TD)方法在预测“开车回家”各阶段时间...
第5章:蒙特卡洛方法 试探性出发假设 在算法的每次迭代或每个“回合”开始时,主动让智能体(agent)从环境中随机选择一个初始状态和初始动作,而不是固定从一个已知状态出发。这样做的好处是确保算法能充分探索所有可能的状态-动作组合,避免因路径依赖而遗漏潜在更优的策略。 Why 试探性出发假设很难被满足 举个具体例子 🌰 假设用蒙特卡洛方法训练一个外卖配送AI,如果要求“试探性...
第4章:动态规划 Intro 1. 作用 给定一个完美的MDP情境,动态规划可以计算最优的策略。 2. 核心思想 使用价值函数来结构化地组织对最优策略的搜索。 3“. 一旦我们得到了满足贝尔曼最优方程的价值函数$v_$或$q_$,那么很容易就能得到最优策略了” 最优策略π∗的定义:使得从任何状态出发都能获得最大回报的策略; 贝尔曼最优方程 ...