Floyd's Blog

Chap5 MC

第5章:蒙特卡洛方法 试探性出发假设 在算法的每次迭代或每个“回合”开始时,主动让智能体(agent)从环境中随机选择一个初始状态和初始动作,而不是固定从一个已知状态出发。这样做的好处是确保算法能充分探索所有可能的状态-动作组合,避免因路径依赖而遗漏潜在更优的策略。 Why 试探性出发假设很难被满足 举个具体例子 🌰 假设用蒙特卡洛方法训练一个外卖配送AI,如果要求“试探性...