回归结果具有意外的上限


9

我尝试预测平衡得分,并尝试了几种不同的回归方法。我注意到的一件事是,预测值似乎具有某种上限。也就是说,实际余额为,但我的预测顶部约0.8。下图显示了实际余额与预测余额(通过线性回归预测):[0.01.00.8

实际与预测

这是相同数据的两个分布图:

初始分配

由于我的预测变量非常偏斜(具有幂律分布的用户数据),因此我应用了Box-Cox转换,将结果更改为以下内容:

Box-Cox转换后的实际与预测

Box-Cox转换后的分布

尽管它改变了预测的分布,但仍然存在上限。所以我的问题是:

  • 预测结果出现上限的可能原因是什么?
  • 如何确定与实际值的分布相对应的预测?

奖励:由于Box-Cox转换后的分布似乎遵循转换后的预测变量的分布,因此这可能直接相关吗?如果是这样,我是否可以应用一种转换以使分布适合实际值?

编辑:我使用了5个预测变量的简单线性回归。


1
我真的很想知道它的去向。这只是线性回归模型吗?有多少个预测变量?
Shadowtalker

1
附带说明:由于您的结果变量以0和1为边界,因此简单的线性回归模型可能会预测超出这些边界的值,这当然是无效的。还有其他的选择在这种情况下考虑。
COOLSerdash

1
有界输入表示线性模型的有界输出。(已转换的)预测变量的界限是什么?您可以向我们显示模型拟合的摘要表吗?
红衣主教

2
Mennny:您真正需要的(开始)是系数值和预测变量的界限。通过一对一地匹配符号,您可以快速确定最小和最大预测(假设预测变量将始终满足隐含或显式的界限)。
主教

1
@cardinal:我检查了预测变量的范围,并能够确认您的假设。对于给定的(未变换的)预测变量,最大预测值为〜0.79。能否请您“复制/粘贴”您的评论作为答案,以便我接受?我该如何进行?我猜这表明我的预测变量与结果之间没有线性关系吗?
曼尼2015年

Answers:


1

您的dep var介于0到1之间,因此OLS并不完全合适,例如,我建议使用beta回归,并且可能还有其他方法。但是其次,在对box-cox进行转换之后,您说您的预测是有界的,但是您的图形没有显示出来。


0

尽管有很多重点放在使用服从0/1边界的回归上,这是合理的(而且很重要!),但为什么LPM不能预测结果大于0.8的特定问题使我有些不同。

无论哪种情况,残差都有一个明显的模式,即,线性模型很难拟合分布的上尾部。这意味着正确的模型有些非线性。

还考虑数据的0/1边界的解决方案:概率,logit和beta回归。考虑到您的分布相对接近1,因此该范围很关键,必须针对您的工作进行严谨的处理,因此您对该主题的回答很多。

但是,通常问题是LPM超出了0/1界限。这里不是这种情况!如果您不关心0/1边界,并积极地希望一个可以与(x'x)^-1(x'y)拟合的解决方案,那么请考虑该模型不是严格线性的。将模型拟合为x ^ 2,自变量的叉积或自变量对数的函数可以帮助改善拟合,并可能改善模型的解释能力,使其估计值大于0.8。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.