我尝试预测平衡得分,并尝试了几种不同的回归方法。我注意到的一件事是,预测值似乎具有某种上限。也就是说,实际余额为,但我的预测顶部约0.8。下图显示了实际余额与预测余额(通过线性回归预测):
这是相同数据的两个分布图:
由于我的预测变量非常偏斜(具有幂律分布的用户数据),因此我应用了Box-Cox转换,将结果更改为以下内容:
尽管它改变了预测的分布,但仍然存在上限。所以我的问题是:
- 预测结果出现上限的可能原因是什么?
- 如何确定与实际值的分布相对应的预测?
奖励:由于Box-Cox转换后的分布似乎遵循转换后的预测变量的分布,因此这可能直接相关吗?如果是这样,我是否可以应用一种转换以使分布适合实际值?
编辑:我使用了5个预测变量的简单线性回归。
1
我真的很想知道它的去向。这只是线性回归模型吗?有多少个预测变量?
—
Shadowtalker
附带说明:由于您的结果变量以0和1为边界,因此简单的线性回归模型可能会预测超出这些边界的值,这当然是无效的。还有其他的选择在这种情况下考虑。
—
COOLSerdash
有界输入表示线性模型的有界输出。(已转换的)预测变量的界限是什么?您可以向我们显示模型拟合的摘要表吗?
—
红衣主教
Mennny:您真正需要的(开始)是系数值和预测变量的界限。通过一对一地匹配符号,您可以快速确定最小和最大预测(假设预测变量将始终满足隐含或显式的界限)。
—
主教
@cardinal:我检查了预测变量的范围,并能够确认您的假设。对于给定的(未变换的)预测变量,最大预测值为〜0.79。能否请您“复制/粘贴”您的评论作为答案,以便我接受?我该如何进行?我猜这表明我的预测变量与结果之间没有线性关系吗?
—
曼尼2015年