培训,测试,验证生存分析问题


14

我一直在这里浏览各种线程,但我认为我的确切问题没有得到回答。

我有约50,000名学生及其辍学时间的数据集。我将使用大量潜在的协变量进行比例风险回归。我还将对辍学/留学情况进行逻辑回归。主要目标是为新的学生群体做预测,但我们没有理由相信他们与去年的学生群体会有很大不同。

通常,我没有这么多的数据,并且通过某种形式的惩罚进行模型拟合,但是这次我想将int训练和测试数据集分离,然后在训练集上进行变量选择。然后使用测试数据集估算参数和预测能力。

这是个好策略吗?如果没有,哪个更好?

欢迎引用,但不是必须的。

Answers:


8

以相似的结果频率,我发现如果则可以进行数据拆分。而且,它提供了对模型性能的无偏估计,如果只使用一次测试样本,则可以适当地对模型选择进行惩罚(如果您确实需要模型选择;仍然可以通过惩罚来获得更好的模型)。 但是不要将测试样本用于任何参数的重新估计。数据拆分依赖于使用训练样本构建的模型,该模型将被放入“深度冻结”并无需进行调整即可应用于测试样本。n>20,000


谢谢。您会推荐80-20吗?90-10?还有吗 有什么参考吗?
彼得·弗洛姆

2
n

3

我一直在自己的纸上寻找交叉验证生存预测的相似任务。好地方从第二章开始。


这似乎将5倍与基于模型CV的估计进行了比较(结论是5倍更好)。但是我对将数据分为两部分并使用一个部分来验证另一个部分更感兴趣。
彼得·弗洛姆

1
由此得出的结论以及为什么最初吸引我的原因是如何在生存预测中处理审查制度,即使用什么损失函数(尽管重新阅读了您的问题,但您可能没有审查制度)。
Cam.Davidson.Pilon 2014年

我确实有审查制度,并且论文很有趣,但是我认为这不是我的问题的答案。
彼得·弗洛姆

1

从那以后,我发现本文不仅回答了我的问题,而且提供了一种为特定数据集确定最佳拆分的方法。我发现这要归功于@FrankHarrell对术语“最佳拆分配置”的使用,然后我对其进行了搜索。


2
彼得,我认为论文使用了不正确的评分规则。使用适当的评分规则可能会获得不同的结果。此外,该论文也未涉及分析的“波动性”。考虑到那里的总样本量较小,与第一次拆分相比,使用不同的随机拆分重复该过程将导致模型差异和准确性大大不同。我看到这是非常不可取的。
Frank Harrell 2014年

@FrankHarrell:我明白你的意思,这的确是一个很好的观点。那么您建议做什么?在蒙特卡洛(Peform Monte Carlo)进行火车/测试分裂奔跑,然后在每次奔跑中进行ix k倍CV(或自举)?但这会污染整个数据集。...我发现没有比找到合适的方法更好的解决方案,那就是找到一种将数据集分为训练集和测试集的适当方法(标准是什么?)我只是不愿意使用所有数据集以训练和验证(使用CV或启动)模型(将使用一个(或几个)模型基于一些输入数据来预测未知的输出值)。
jpcgandre 2014年

我在您刚刚放在另一个主题页面上的帖子中谈到了这一点。
Frank Harrell 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.