我们有一套生物学样品,价格昂贵。我们对这些样本进行了一系列测试,以生成用于构建预测模型的数据。为此,我们将样本分为训练(70%)和测试(30%)组。我们已经成功创建了一个模型,并将其应用于测试集,以发现性能“未达到最佳”。实验人员现在希望改善生物学测试,以创建更好的模型。假设我们无法获得新的样本,您是否建议我们重新整理样本以创建新的训练和验证集或坚持原来的划分。(我们没有任何迹象表明该部门存在问题)。
1
您如何划分数据?随机地,手工地或其他方法?尽管实际上,有关“成功创建模型”的部分是问题的很大一部分。在做昂贵的事情之前,您应该查看您是否使用了适当类型的模型,是否过度拟合了训练数据以及是否具有要尝试预测的适当数据。
—
韦恩
顺便说一句,我忘了在“成功创建模型”之前打开犬儒
—
主义