不当的线性模型什么时候才能变得强大美观?


9

问题:

  • 是在实践中使用了不正确的线性模型,还是在科学期刊中不时描述了某种好奇心?如果是这样,它们在哪些领域使用?
  • 还有其他此类模型的例子吗?
  • 最后,对于此类模型,从OLS提取的标准误差,,R ^ 2等是否正确,还是应该以某种方式进行纠正?pR2

背景:文献中不时描述了不正确的线性模型。通常,此类模型可以描述为

y=a+biwixi+ε

是什么让他们回归不同的是,的是没有在模型中估计系数,但权重是wj

  • 等于每个变量(单位加权回归),wi=1
  • 基于相关性(Dana and Dawes,2004),wi=ρ(y,xi)
  • 随机选择(Dawes,1979年),
  • 1变量负相关,为正相关的变量(Wainer,1976)。1 yy1y

使用某种特征缩放也很常见,例如将变量转换为分数。因此,这种模型可以简化为单变量线性回归Z

y=a+bv+ε

其中,并且可以使用OLS回归简单地估算。v=wix

参考:
Dawes,Robyn M.(1979)。决策中不适当线性模型的鲁棒性美国心理学家,第34卷,第 571-582页。

Graefe,A.(2015年)。使用相等加权的预测变量改进预测商业研究杂志,68(8),1792-1799。

Wainer,霍华德(1976)。估计线性模型中的系数:别无所求心理公告83(2),213。

Dana,J.和Dawes,RM(2004)。回归的简单选择对社会科学预测的优越性教育与行为统计杂志,29(3),317-331。


3
从这些模型得出的统计数字在什么意义上是“不正确的”?
ub

1
当是预先指定的&估计时,这只是对预测变量进行的数据缩减(以各种形式通用)(请参见格拉斯哥昏迷量表和Charlson合并症指数),这不会影响在通常的OLS框架中推理的有效性。当使用来确定 s时,标准误差&c。会朝着我认为的乐观方向发展。 b ÿ 瓦特wibywi
Scortchi-恢复莫妮卡

1
这不是一个明智的评论-这些论文仍在我的“阅读”堆中。我只是想知道:“为什么不当?”。预测变量通常是其他变量的线性组合-多次测量的平均值,主成分得分,来自另一回归的预测,来自指数平滑时间序列的水平或来自完善的计算值或临时索引。不从响应中估计权重会浪费自由度,从而有助于避免因样本量较小而过度拟合。
Scortchi-恢复莫妮卡

1
例如Beddhu(2000)中,“简单的合并症量表可以预测透析患者的临床结局和费用”。J.医学。,108,8的模型公式具有相同的形式为其中你 s的定义为用于糖尿病,淋巴瘤,和c中的指针变量。,&的 s为预先指定的。我想我想说的是,“不适当”和“适当”回归模型之间的区别似乎基于的上帝给定集合的概念,对于每个 s,“适当”模型都会估计一个系数。W¯¯ X xiwixi
Scortchi-恢复莫妮卡

4
如果,并且& ;如果根据模型适合的同一数据估算出,那将是完全不同的鱼群。ρwi=ρ(y,xi)ρ
Scortchi-恢复莫妮卡

Answers:


1

实际上,在我看来,这是假设的协方差结构的一种。换句话说,这是贝叶斯先验建模的一种。

由于减少了参数( df)的数量,因此比普通的MLR程序具有更高的鲁棒性,并且由于增加了省略变量偏差 OVB 而引入了不准确性。由于OVB,斜率变得平坦,,确定系数减小。| β | < | β | [R 2 < - [R 2|β^|<|β|R^2<R2

我的个人经验是,优于贝叶斯方法的是使用更好的建模。变换参数,使用其他规范和/或使用非线性方法。也就是说,一旦对问题的物理性质和方法进行了适当的探索和协调,F统计量,确定系数等将得到改善而不是降低。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.