我应该重新整理我的数据吗?


9

我们有一套生物学样品,价格昂贵。我们对这些样本进行了一系列测试,以生成用于构建预测模型的数据。为此,我们将样本分为训练(70%)和测试(30%)组。我们已经成功创建了一个模型,并将其应用于测试集,以发现性能“未达到最佳”。实验人员现在希望改善生物学测试,以创建更好的模型。假设我们无法获得新的样本,您是否建议我们重新整理样本以创建新的训练和验证集或坚持原来的划分。(我们没有任何迹象表明该部门存在问题)。


1
您如何划分数据?随机地,手工地或其他方法?尽管实际上,有关“成功创建模型”的部分是问题的很大一部分。在做昂贵的事情之前,您应该查看您是否使用了适当类型的模型,是否过度拟合了训练数据以及是否具有要尝试预测的适当数据。
韦恩

顺便说一句,我忘了在“成功创建模型”之前打开犬儒
主义

Answers:


12

因为您已经使用了保持样本,所以我想说您应该保留它,并在同一训练样本上构建新模型,以便所有模型都将考虑要素之间的相同关系。另外,如果执行特征选择,则必须在所有这些过滤阶段之前将样本都排除在外;也就是说,功能选择必须包含在交叉验证循环中。

值得注意的是,有比0.67 / 0.33拆分更强大的方法用于模型选择,即k倍交叉验证或留一法。参见例如 《统计学习的要素》(第7.10页,第241-248页),www.modelselection.org或Arlot和Celisse 进行的模型选择的交叉验证程序概览(需要更高级的数学背景)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.