不当的线性模型什么时候才能变得强大美观？

问题：

背景：文献中不时描述了不正确的线性模型。通常，此类模型可以描述为

y = a + b \sum_{i} w_{i} x_{i} + ε

$y = a + b \sum_i w_i x_i + \varepsilon$

是什么让他们回归不同的是，的是没有在模型中估计系数，但权重是 $w_j$

使用某种特征缩放也很常见，例如将变量转换为分数。因此，这种模型可以简化为单变量线性回归 $Z$

y = a + b v + ε

$y = a + b v + \varepsilon$

其中，并且可以使用OLS回归简单地估算。 $v = \sum w_i x$

参考：
Dawes，Robyn M.（1979）。决策中不适当线性模型的鲁棒性。美国心理学家，第34卷，第 571-582页。

Graefe，A.（2015年）。使用相等加权的预测变量改进预测。商业研究杂志，68（8），1792-1799。

Wainer，霍华德（1976）。估计线性模型中的系数：别无所求。心理公告83（2），213。

Dana，J.和Dawes，RM（2004）。回归的简单选择对社会科学预测的优越性。教育与行为统计杂志，29（3），317-331。

regression references linear-model robust

— 蒂姆
source

从这些模型得出的统计数字在什么意义上是“不正确的”？

— ub

当是预先指定的＆估计时，这只是对预测变量进行的数据缩减（以各种形式通用）（请参见格拉斯哥昏迷量表和Charlson合并症指数），这不会影响在通常的OLS框架中推理的有效性。当使用来确定 s时，标准误差＆c。会朝着我认为的乐观方向发展。

w_{i}

$w_i$

b

$b$

y

$y$

w_{i}

$w_i$

— Scortchi-恢复莫妮卡

这不是一个明智的评论-这些论文仍在我的“阅读”堆中。我只是想知道：“为什么不当？”。预测变量通常是其他变量的线性组合-多次测量的平均值，主成分得分，来自另一回归的预测，来自指数平滑时间序列的水平或来自完善的计算值或临时索引。不从响应中估计权重会浪费自由度，从而有助于避免因样本量较小而过度拟合。

— Scortchi-恢复莫妮卡

例如，在Beddhu（2000）中，“简单的合并症量表可以预测透析患者的临床结局和费用”。J.医学。，108，8的模型公式具有相同的形式为其中你 s的定义为用于糖尿病，淋巴瘤，和c中的指针变量。，＆的 s为预先指定的。我想我想说的是，“不适当”和“适当”回归模型之间的区别似乎基于的上帝给定集合的概念，对于每个 s，“适当”模型都会估计一个系数。

x_{i}

$x_i$

w_{i}

$w_i$

x_{i}

$x_i$

— Scortchi-恢复莫妮卡

如果，并且＆ ;如果根据模型适合的同一数据估算出，那将是完全不同的鱼群。

w_{i} = ρ (y, x_{i})

$w_i = \rho(y, x_i)$

ρ

$\rho$

— Scortchi-恢复莫妮卡

实际上，在我看来，这是假设的协方差结构的一种。换句话说，这是贝叶斯先验建模的一种。

由于减少了参数（ df）的数量，因此比普通的MLR程序具有更高的鲁棒性，并且由于增加了省略变量偏差 OVB 而引入了不准确性。由于OVB，斜率变得平坦，，确定系数减小。 $\downarrow$ $|\hat\beta|<|\beta|$ $\hat{R}^2<R^2$

我的个人经验是，优于贝叶斯方法的是使用更好的建模。变换参数，使用其他规范和/或使用非线性方法。也就是说，一旦对问题的物理性质和方法进行了适当的探索和协调，F统计量，确定系数等将得到改善而不是降低。

— 卡尔
source