我有一个使用skl构建的随机森林回归,并且我注意到基于将随机种子设置为不同的值会产生不同的结果。
如果我使用LOOCV确定哪种种子效果最好,这是一种有效的方法吗?
1
人们在比赛中做到这一点。尽管对于学术界来说,这很难辩解。
—
Firebug
想想一个极端的情况:我们玩游戏:掷两个骰子,而我们当中获得更高总和的人获胜。但是实际上我可以掷骰子两次。你公平吗?让我指出,设置随机种子是可重复研究不可或缺的一部分,应该始终这样做。但这并不意味着我们应该尝试许多不同的种子,直到找到“有利的种子”。
—
usεr11852
@usεr11852您如何看待我对当前接受的答案的评论?我不确定这与kmeans这样的随机重启是否有所不同。没有人认为我们应该被迫接受我们所做的第一次运行,以至于随机重新启动内置在R的标准函数中。除非您可能认为该模型运行kmeans 100次而不是运行该模型只是最佳的单一群集
—
jld18'18
不,这似乎是对实际随机性过度拟合的定义。
—
马克·怀特
@Chaconne:我完全支持您关于适当验证的观点。那就是说,我认为这两种用例有一个核心区别:在k均值(或一般来说是随机优化)的情况下,我们寻找“最优集”参数,而对于CV,我们关注“代表性集” ”。在早期的案例中,我们努力展示“我们能做多好”,而在后一种情况下,我们试图展现“我们将做多好”。
—
usεr11852