混合模型是否可用作预测模型?


24

我对混合模型在预测建模方面的优势感到困惑。由于预测模型通常是用来预测先前未知观测值的,因此对我而言显而易见的是,混合模型可能有用的唯一方法是通过其提供总体水平的预测的能力(即不增加任何随机效应)。但是,问题在于,到目前为止,根据我的经验,基于混合模型的人口水平预测要比仅基于固定效应的标准回归模型的预测差得多。

那么关于预测问题的混合模型有什么意义呢?

编辑。问题如下:我拟合了混合模型(具有固定和随机效应)和仅具有固定效应的标准线性模型。当我进行交叉验证时,我得到以下预测精度层次:1)使用固定效应和随机效应进行预测时的混合模型(但这当然仅适用于具有已知随机效应变量水平的观察结果,因此这种预测方法似乎无法适合真正的预测应用!);2)标准线性模型;3)使用人口水平的预测时的混合模型(因此排除了随机影响)。因此,由于估计方法不同,标准线性模型和混合模型之间的唯一区别是系数的值有所不同(即,两个模型中的效果/预测因子相同,但相关系数不同)。

因此,我的困惑归结为一个问题,为什么我会使用混合模型作为预测模型,因为与标准线性模型相比,使用混合模型来生成总体水平的预测似乎是一种劣等策略。


您如何进行预测?您是否不使用随机效果,或者正在使用随机效果固定随机效果?(也就是说,您是否在预测时就排除了随机效应?)
韦恩

据我正确理解随机效应,将随机效应固定在其均值上与将它们扔掉相同,因为随机效应(至少在我使用的参数化中)是从均值0和方差sigma的正态分布生成的。但是无论如何,由于我不知道新观察结果的随机效应变量的值,因此我当然不会在预测时使用随机效应,而只使用固定效应。
sztal '16

1
您可能希望通过本文的样子,“关于混合模型为基础的Logistic回归分类器纵向数据的有效性”,search.proquest.com/openview/3578d64c85f3c1c52414924d044bca2c/...
乔恩·

1
sztal:你当然是对的。我试图快速做出回应,并说了些没有意义的事情。我确实在第7节中找到了有关预测的论文(gllamm.org/JRSSApredict_09.pdf)。我不得不说我无法将其总结为一个评论,这表明我并不真正理解它。
韦恩

最后一个问题:当您将“仅固定效果”与“混合效果”进行比较时,您是否在每个固定效果中都使用了相同的固定效果,而只添加了诸如单个级别的截距之类的东西?感觉在这种情况下,除了对真实的预测间隔有更好的了解之外,您应该具有非常相似的效果。
韦恩

Answers:


17

这取决于数据的性质,但总的来说,我希望混合模型的性能优于仅固定效果的模型。

让我们举个例子:模拟阳光和麦秆高度之间的关系。我们对单个茎进行了许多测量,但是许多茎在相同的位置进行测量(在土壤,水和可能影响高度的其他物体中相似)。以下是一些可能的模型:

1)身高〜阳光

2)身高〜阳光+场地

3)高度〜阳光+(1 |位置)

我们希望使用这些模型来预测新麦秆的高度,前提是估算出它们将经历的阳光。我将忽略因仅在固定效果模型中拥有多个站点而需要支付的参数损失,而仅考虑模型的相对预测能力。

这里最相关的问题是,您尝试预测的这些新数据点是否来自您所测量的站点之一?您说这在现实世界中很少见,但确实发生了。

A)新数据来自您测量过的站点

如果是这样,模型#2和#3将胜过#1。他们都使用更多相关信息(平均站点效应)进行预测。

B)新数据来自未测站点

由于以下原因,我仍然希望模型#3的表现优于#1和#2。

(i)模型3与模型1:

模型1会产生偏向于代表性偏高的站点的估计值。如果每个站点的点数相似,并且站点的样本具有代表性,那么您应该从两个站点获得相似的结果。

(ii)模型3与模型2:

在这种情况下,为什么模型3会比模型2更好?因为随机效应利用了收缩的优势,所以站点效应将“缩小”为零。换句话说,将其指定为随机效果时,相对于将其指定为固定效果时,您会发现站点效果的极值较小。当总体均值可以合理地认为是从正态分布中得出时,这很有用,并且可以提高您的预测能力(请参阅“ 统计中的斯坦因悖论”)。如果不期望总体均值遵循正态分布,则可能会出现问题,但这通常是一个非常合理的假设,并且该方法对于较小的偏差是可靠的。

[旁注:默认情况下,在拟合模型2时,大多数软件会使用一个站点作为参考,并估计其他站点的系数,这些系数表示它们与参考的偏差。因此,似乎似乎没有办法计算总体的“人口效应”。但是您可以通过对所有单个站点的预测结果求平均值来计算此值,或者更简单地通过更改模型的编码来计算每个站点的系数。]


感谢您的回答。我颇有说服力。不幸的是,我现在不记得引起这个问题的确切情况了,但是我认为,在我的情况下,混合模型的较差性能可能是由于我在模型中使用的预测变量分布非常不规则所致。我很快就会接受答案,但是由于这个问题引起了我的一些注意,因此我将再花几天时间,以便有人可以提出更严格的要求(也许有一些例子)。
sztal '17

1
说得好。应该注意的是,从层次上预测引起随机效应的位点特异性效应,预测从模型凭经验估计的随机截距或随机斜率,应该等同于仅具有一堆个体水平和位点特异性固定效应。在模型中。
AdamO

8

跟踪mkt的出色反应:根据我个人在健康保险领域开发预测模型的经验,将随机效应纳入预测模型(包括机器学习模型)具有许多优势。

我经常被要求建立基于个人的历史索赔数据预测未来索赔结果的模型(例如,未来的医疗费用,住院时间等)。通常,每个人有多个具有相关结果的主张。忽略同一患者共享许多索赔的事实,将会在预测模型中丢掉有价值的信息。

一种解决方案是为数据集中的每个成员创建固定效果指标变量,并使用罚分回归分别缩小每个成员级别的固定效果。但是,如果您的数据中有成千上万的成员,则从计算和预测的角度来看,更有效的解决方案可能是将多个成员级别的固定效应表示为具有正态分布的单个随机效应项。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.