人工智能 overfitting

为什么在强化学习示例中看不到辍学层？

我一直在研究强化学习，尤其是在创建自己的环境以与OpenAI Gym AI配合使用的过程中。我正在使用stable_baselines项目中的代理进行测试。我在几乎所有RL示例中都注意到的一件事是，在任何网络中似乎都没有任何丢失层。为什么是这样？我创建了一个模拟货币价格的环境，并使用DQN创建了一个简单的代理商，该代理商试图了解何时进行买卖。从一组包含一个月的5分钟价格数据的特定数据中进行训练的时间跨度将近一百万，这似乎过于适合了。如果我随后评估代理商，并针对不同月份的数据模型进行评估，那就太糟糕了。所以听起来像经典的过拟合。但是，为什么没有在RL网络中看到缺失层？是否有其他机制可以解决过度拟合问题？还是在许多RL实例中都没关系？例如，在“突破”游戏中可能只有一种真正的方法来获得最终的高分，所以您不妨一口气地学到它，而不必一概而论？还是认为环境本身的混乱性质应该提供足够多的不同结果组合，而您无需具有辍学层？

13 machine-learning reinforcement-learning overfitting dropout

什么是“辍学”技术？

“辍学”方法的作用是什么？它如何改善神经网络的整体性能？

10 deep-network overfitting performance

Questions tagged «overfitting»