在基于计算机的实验/模拟中残差的独立性？

17

我对适合古科学中使用的特定类型模型的不同方法进行了基于计算机的评估。我的训练集很大，因此我随机（分层随机抽样）留出了测试集。我为训练集样本拟合了 $m$ 种不同的方法，并使用 $m$ 结果模型预测了测试集样本的响应，并针对测试集中的样本计算了RMSEP。这是一次运行。

然后，我多次重复此过程，每次我通过随机采样新的测试集来选择不同的训练集。

完成此操作后，我想研究 $m$ 种方法中的任何一种是否具有更好或更差的RMSEP性能。我还想对成对方法进行多次比较。

我的方法是拟合线性混合效果（LME）模型，并为Run提供单个随机效果。我使用lmer()了lme4软件包中的数据，以适应multcomp软件包中的模型和函数，以执行多次比较。我的模特本质上是

lmer(RMSEP ~ method + (1 | Run), data = FOO)

其中method是一个因素，指示用于生成测试集的模型预测的哪种方法，并且Run是每个特定运行的指标 “实验”的。

我的问题是关于LME的残差。给定运行的单个随机效应我假设该的RMSEP值在某种程度上相关，但在运行之间不相关，这是基于随机效应所提供的诱导相关性。

运行之间的独立性这一假设有效吗？如果不是，那么在LME模型中是否可以解决这个问题，还是我应该寻求采用其他类型的静态分析来回答我的问题？

— 恢复莫妮卡-辛普森
source

残差是取决于预测的随机效应还是无条件的？在模拟中，预测的随机效应是恒定的还是变化的。请记住，尝试了解LME4中的默认模拟方法，但不能这样做（但是在我整理项目之前，该项目已被取消）。

— phaneron 2012年

不确定我是否会完全遵循，但是在LME之前已经完成了各种绘画训练集->拟合模型->计算RMSEP。随机效应是针对运行的，因为随着选择测试集样本的不同组合，每次运行都会具有不同的截距（RMSEP），但这在运行中是恒定的。至于有条件/无条件位，我不确定/不清楚您的意思。感谢您的评论。

— 恢复莫妮卡

4

本质上，您正在为每种m方法进行某种形式的交叉验证，然后希望查看哪种方法执行得更好。两次运行之间的结果肯定会取决于结果，因为它们基于相同的数据，并且训练/测试集之间存在重叠。问题是，当您比较这些方法时这是否重要？

假设您只执行一次运行，并且发现一种方法比其他方法更好。然后您会问自己-这仅仅是由于测试集的特定选择吗？这就是为什么您要对许多不同的训练/测试集重复测试的原因。因此，为了确定某个方法比其他方法更好，您需要运行多次，并在每次运行中将其与其他方法进行比较（查看错误/等级/等时，有不同的选择）。现在，如果您发现一种方法在大多数运行中效果更好，那么结果就是它的样子。我不确定为此设置p值是否有帮助。或者，如果您确实想给出p值，请问自己这里的背景模型是什么？

— 按位
source

感谢您的想法。我认为您的最后几句话概括了我现在的位置。考虑到这一点，我将进行后续跟踪，询问有关分析此类数据的适当方法。我也喜欢您关于“它就是它”的观点；最近，这也在我的思考过程的边缘旋转。

— 恢复莫妮卡-辛普森（G. Simpson）2012年

我对“结果就是它”部分的一个问题是，RMSEP在每次运行之间变化很大。因此，平均而言，一两种方法会更好，但考虑到RMSEP的可变性，它们真的更好吗？因此，我尝试对Run产生随机影响的LME。要修改该方法，我需要知道谁关联了每个数据集。看来我所做的任何统计检验都需要进行修改。因此，我仍然在努力解释每种方法从50次运行中得出的平均值以及是否可以得出任何结论...？

— 恢复莫妮卡-G.辛普森

1

我认为，在所有可能的数据训练/测试集分区上评估方法将是最全面的评估。由于这是不可能的，因此您需要随机运行进行估算。假设您可以评估所有训练/测试分区-仍然会遇到如何确定哪种方法更好的问题。因此，这更多地取决于您如何定义“好”。这意味着高平均分吗？还是这意味着在许多运行中，一种方法的得分要比其他方法更高（我个人认为这是更好的选择）？

— 2012年

1

可能无法真正理解您所做的事情，但

对于运行，我假设该运行的RMSEP值在某种程度上相关

是的，这反映出该测试集在此过程中的挑战性

但运行之间不相关

否，考虑到您对测试集进行采样的方式，某些测试集将比其他测试集重迭（最肯定不是独立复制）

您将不得不以某种方式基于重叠对依赖关系进行建模或设计评估，以使运行独立。我会阅读有关交叉验证的统计资料；-)

— 潘尼隆
source

+1感谢您的回答。嗯，我明白你的意思了。测试集越相似，其RMSEP值就越相似。好的，这样说，就好像数据在空间上或临时上是相关的一样。我生成训练集/测试集的方式应该意味着平均而言，它们之间互不相同。我不确定什么简历可以带我到这里-从某种意义上说，我只是通过重采样方法来做到这一点。然后可能会问另一个Q关于如何解决实际问题。

— 恢复莫妮卡-辛普森（G. Simpson）

在悬赏期结束之前，我将保持开放状态，以查看是否有人咬人，但在此感谢您的想法，如果没有其他答案，我将接受并奖励悬赏。

— 恢复莫妮卡-辛普森（G. Simpson）2012年