1
为什么在强化学习示例中看不到辍学层?
我一直在研究强化学习,尤其是在创建自己的环境以与OpenAI Gym AI配合使用的过程中。我正在使用stable_baselines项目中的代理进行测试。 我在几乎所有RL示例中都注意到的一件事是,在任何网络中似乎都没有任何丢失层。为什么是这样? 我创建了一个模拟货币价格的环境,并使用DQN创建了一个简单的代理商,该代理商试图了解何时进行买卖。从一组包含一个月的5分钟价格数据的特定数据中进行训练的时间跨度将近一百万,这似乎过于适合了。如果我随后评估代理商,并针对不同月份的数据模型进行评估,那就太糟糕了。所以听起来像经典的过拟合。 但是,为什么没有在RL网络中看到缺失层?是否有其他机制可以解决过度拟合问题?还是在许多RL实例中都没关系?例如,在“突破”游戏中可能只有一种真正的方法来获得最终的高分,所以您不妨一口气地学到它,而不必一概而论? 还是认为环境本身的混乱性质应该提供足够多的不同结果组合,而您无需具有辍学层?