关于线性回归最常见的误解是什么？

70

我很好奇，对于那些与其他研究人员合作有丰富经验的人，您遇到的关于线性回归的最常见误解是什么？

我认为这是一个有用的练习，可以提前考虑常见的误解，以便

预测人们的错误并能够成功阐明为什么某些误解是不正确的

如果我自己怀有一些误解，请意识到！

我能想到的几个基本原则：

自变量/因变量必须正态分布

变量必须标准化才能准确解释

还有其他吗？

欢迎所有答复。

regression multiple-regression

— ST21
source

5

这可能应该是CW，因为它会列出一系列可能性，而且很难说一个客观上是“正确答案”。

— gung

我认识的许多人仍然坚持对数据执行线性化处理，即使这样，即使他们使用的计算环境为非线性回归提供了良好的支持也是如此。（线性化当然可以作为非线性拟合的起点，但这些人甚至没有意识到。）

— JM不是统计学家

1

@gung：Community Wiki还是一回事吗？在整个网络范围内，CW 大多已被弃用，它从来没有真正提出过从监狱免费卡中获得边际，广为提出的大问题，或者抢劫了如果问题首先成为话题的人们可能会赢得的声誉。您甚至可以再提出一个问题的唯一方法是，是否请主持人来做。

— 罗伯特·哈维，

1

如果神使世界线性化，就不会有非线性回归。

— 马克·L·斯通

1

@RobertHarvey：是的，CrossValidated 上仍然有很多事情（不幸的是，在我看来）。我们已经对此进行了一些激烈的Meta讨论（例如，本次讨论），但是目前的现状是，对所有基于主题的意见或大问题都强制实施了CW状态，这些问题足以使话题保持开放。

— 变形虫

38

错误的前提：表示DV和IV之间没有牢固的关系。 $\hat{\beta} \approx 0$
非线性功能关系比比皆是，但是，如果假设关系必须是线性的，或者甚至近似是线性的，则由许多此类关系产生的数据通常会产生几乎为零的斜率。

相关地，在另一个错误的前提下，研究人员通常会假设 -可能是因为许多入门性回归教科书都讲到了-通过将DV回归到IV的多项式展开上建立一系列回归来“测试非线性”（例如，然后是，然后是由 $Y \sim \beta_{0} + \beta_{X}X + \varepsilon$ $Y \sim \beta_{0} + \beta_{X}X + \beta_{X^{2}}X^{2} + \varepsilon$ $Y \sim \beta_{0} + \beta_{X}X + \beta_{X^{2}}X^{2} + \beta_{X^{3}}X^{3} + \varepsilon$ 等）。正如直线不能很好地代表DV和IV之间的非线性函数关系，抛物线不能很好字面上表示的非线性关系的无限数量（例如正弦曲线，摆线，阶跃函数，饱和效应，S曲线等循环往复）。取而代之的是，可以采用一种不采用任何特定功能形式（例如，运行线平滑器，GAM等）的回归方法。

一个第三个错误的前提是增加估计的数量参数必然导致统计功率损耗。当真正的关系是非线性的并且需要多个参数进行估计时（例如，“断棍”功能不仅需要直线的截距和斜率项，还需要斜率发生变化的点以及变化量为多少），这可能是错误的。坡度变化 估计值）：错误指定的模型（例如直线）的残差可能会变得非常大（相对于正确指定的函数关系），从而导致较低的拒绝概率和更宽的置信区间和预测区间（除了估计值有偏差）。

— 亚历克西斯
source

4

（+1）quibbles：（1）我什至不认为介绍性文字也暗示所有曲线都是多项式函数，而是可以通过多项式函数在给定范围内将它们很好地近似。因此，它们属于“不采用任何特定功能形式的回归方法”类别，由“摆动性”的“超参数”控制：黄土的跨度，否。以样条曲线为基础进行回归的结，以多项式为基础进行回归的程度。（我并没有为多项式挥舞旗帜-众所周知，多项式趋向于比我们想要的更多-，...

— Scortchi

2

... ...只是给他们应得的东西。）（2）正弦曲线很可能适合线性模型框架；使用非线性模型（例如，矩形双曲线）的饱和效果；＆C。当然，您没有说其他的话，但是值得指出的是，如果您知道存在一个周期或一个渐近线，则在模型中应用这些约束将很有帮助。

— Scortchi

2

@Scortchi我完全同意！（实际上，给定无限数量的多项式，任何函数都可以完美表示。）目的是为了简洁。:)

— 亚历克西斯（Alexis）2013年

2

@Alexis尝试通过多项式逼近Conway的以13为底的函数。:)

— 所罗门诺夫的秘密

1

或 ...

χ_{Q}

$\chi_{\mathbb{Q}}$

— Stephan Kolassa，2016年

22

通常认为只有数据会受到测量误差的影响（或者至少这是我们将要考虑的唯一误差）。但是，这忽略了测量中错误的可能性和后果。在变量不受实验控制的观察性研究中，这可能尤为严重。 $y$ $x$ $x$

回归稀释或回归衰减是Spearman（1904）认识到的现象，其中由于独立变量中存在测量误差，简单线性回归中的估计回归斜率偏向零。假设真实斜率是正的-抖动点的坐标（可能最容易可视化为“水平”塞点）的效果是使回归线不那么陡峭。凭直觉，由于正的测量误差，较大的点现在更可能是这样，而值则更有可能反映的真实（无错误）值，因此比真实直线要低。对于观察 $x$ $x$ $y$ $x$ $x$ 。

在更复杂的模型中，变量中的测量误差会对参数估计值产生更复杂的影响。变量模型中存在一些错误，将此类错误考虑在内。Spearman建议使用校正因子来减弱双变量相关系数，并且已经针对更复杂的情况开发了其他校正因子。但是，这样的校正可能很困难-尤其是在多变量情况下并且在混杂因素的情况下-校正是否是真正的改进可能会引起争议，例如Smith和Phillips（1996）。 $x$

因此，我认为这是对一个价格的两个误解—一方面，认为我们写方式意味着“所有错误都在 ”而忽略了自变量中实际存在测量误差的可能性。另一方面，在诸如膝跳反应之类的所有情况下，不建议对测量误差盲目地应用“校正”（尽管首先采取措施减少测量误差可能是一个好主意）。 $y = X\beta + \varepsilon$ $y$

（我可能还应该以越来越普遍的顺序链接到其他一些常见的变量误差模型：正交回归，戴明回归和总最小二乘法。）

参考文献

Smith，GD，和Phillips，AN（1996）。“ 流行病学中的通货膨胀：'重新审视和衡量两件事之间的联系 ”。英国医学杂志，312（7047），1659–1661。
Spearman，C.（1904年）。“证明和衡量两件事之间的联系。” 美国心理学杂志 15：72–101。

— 银鱼
source

需要注意的是：这是使用被称为“最小二乘法”或“正交回归”的技术的一个原因（取决于您正在阅读的参考资料）；它比简单的最小二乘法要复杂得多，但是如果所有点都被错误污染，则值得这样做。

— JM不是统计学家

@JM谢谢-是的，事实上，我原本打算插入TLS的链接，但对Smith和Phillips的文章分心！

— 银鱼

2

+1这个主题非常棒。我在工作中经常考虑EIV模型。但是，除了它们的复杂性或对“错误率”知识的依赖之外，还需要考虑更多的概念性问题：许多回归，尤其是在监督学习或预测中，都希望将观察到的预测变量与观察到的结果相关联。另一方面，EIV模型试图确定平均预测变量和平均响应之间的潜在关系……一个稍微不同的问题。

2

因此，在科学的背景下，所谓的“真实”回归的“稀释”将被称为“缺乏预测效用”或类似的东西。

21

在此上下文以及其他统计上下文中存在一些标准误解：例如，的含义，错误地推断因果关系等。 $p$

我认为一些特定于多元回归的误解是：

认为具有较大估计系数和/或较低值的变量“更重要”。 $p$
认为向模型添加更多变量可以使您“更接近真相”。例如，从一个简单的回归斜率上可以不是之间的真正的直接关系和，但如果我添加变量，该系数将是真实关系的更好的表示，并且如果我添加，它将比这更好。 $Y$ $X$ $X$ $Y$ $Z_1, \ldots, Z_5$ $Z_6, \ldots, Z_{20}$

— ung
source

12

好东西。如果该答案解释了两个错误的原因以及应该怎么做，它可能会更有用。

— DW

14

我说你列出的第一个可能是最常见的-也可能是最广泛传授这样-那是明明白白看到是错误的东西，但这里有一些其他的，在某些情况下不太清楚（是否确实适用），但可能会影响甚至可能更严重的分析。当引入回归主题时，通常根本不会提到这些。

将来自可能无法接近代表性的观察值的感兴趣集合视为随机样本（更不用说随机抽样了）。[相反，有些研究可被视为更接近便利性样本]
利用观测数据，只需忽略过程的重要驱动因素而造成的后果，这些驱动因素肯定会使所包含变量的系数估计值产生偏差（在许多情况下，甚至可能改变其符号），而无需尝试考虑处理方法与他们在一起（无论是出于对问题的无知还是仅仅是不知道任何事情都可以做）。[某些研究领域比其他研究领域更多地遇到了这个问题，无论是由于所收集的数据的种类，还是因为某些应用领域的人们更可能被教导有关此问题的信息。]
虚假回归（主要是随时间收集的数据）。[即使人们知道它发生了，也存在另一个普遍的误解，即简单地区别于假定的平稳状态就足以完全避免该问题。]

当然，还有很多其他人可能会提到（例如，处理几乎可以肯定是串行相关甚至是整合的独立数据可能差不多一样常见）。

您可能会注意到，随时间推移收集的数据的观察性研究可能会立即受到所有这些的影响……但是，这种研究在许多以回归为标准工具的研究领域中非常普遍。在没有一个审阅者或编辑者不了解其中至少一个并且结论中至少需要一定程度的免责声明的情况下，如何才能发表论文仍令我感到担忧。

当进行相当谨慎地控制的实验时（与可能不是那么仔细地控制的分析相结合），统计数据充满了无法再现的结果的问题，因此，一旦超出这些范围，可再现性状况必须恶化多少？

— Glen_b
source

6

与您的某些观点密切相关的想法可能是“仅数据存在测量误差”（或至少“这是我们将考虑的唯一误差”）。不确定在这里是否值得一试，但是忽略变量中的随机误差的可能性和后果当然很普遍。

y

$y$

x

$x$

— Silverfish'6

2

@Silverfish我完全同意你的看法。

— 马克·L·斯通·马克

@Silverfish是CW，因此您应该自由地编辑类似的附加内容。

— Glen_b

@Silverfish有一个原因我在您提到它时还没有自己添加过……我认为这可能值得一个新答案

— Glen_b

12

我可能不会称呼这些误解，但也许会混淆或挂断一些共同点，在某些情况下，还可能是研究人员可能没有意识到的问题。

多重共线性（包括变量多于数据点的情况）
异方差
自变量的值是否受到噪声的影响
缩放（或不缩放）如何影响系数的解释
如何处理来自多个受试者的数据
如何处理序列相关性（例如时间序列）

在误解方面：

线性是什么意思（例如是非线性，而权重是线性的）。 $y = ax^2 + bx + c$ $x$
“回归”是指普通最小二乘或线性回归
低/高权重必然意味着与因变量的弱/强关系
因变量和自变量之间的依存关系可以必然减少为成对依存关系。
训练集的高度拟合优度暗示着一个好的模型（即，忽略过度拟合）

— 用户20160
source

7

根据我的经验，学生经常接受这样一种观点，即平方误差（或OLS回归）本质上是适当，准确和整体上可以使用的好东西，甚至是别无选择。我经常看到OLS随广告一起登广告，说它“对更极端/越轨的观察给予了更大的重视”，并且在大多数情况下，至少它暗示这是理想的属性。当引入异常值和稳健方法的处理时，可以稍后修改此概念，但是此时损坏已经完成。可以说，从历史上看，平方误差的广泛使用与其数学上的便利有关，而不是与实际误差成本的某些自然定律有关。

总体而言，可以将更多的重点放在对误差函数的选择有些武断的理解上。理想情况下，算法中惩罚的任何选择均应以与潜在错误相关的相应实际成本函数为指导（即，使用决策框架）。为什么不先建立这个原则，然后看看我们能做得如何？

— 本尼迪克特MJG
source

2

该选择还取决于应用程序。OLS对于代数y轴拟合非常有用，但对于几何应用则不太有用，在几何应用中，总最小二乘法（或其他基于正交距离的成本函数）更为有意义。

— 威利·惠勒

4

另一个常见的误解是误差项（或计量经济学术语中的干扰）和残差是同一件事。

误差项是真实模型或数据生成过程中的随机变量，通常被假定遵循一定的分布，而残差是所观测数据与拟合模型的偏差。这样，残差可以被认为是误差的估计。

— 罗伯特·朗（Robert Long）
source

我敢打赌，人们会对解释为什么如此重要或在哪种情况下感兴趣。

— rolando2

4

我遇到的最常见的误解是线性回归假设误差的正态性。没有。正态性在线性回归的某些方面（例如小样本属性，例如系数的置信度限制）方面很有用。即使对于这些东西，非正态分布也有渐近值。

第二常见的是关于内生性的一堆混乱，例如对反馈回路不谨慎。如果存在从Y到X的反馈回路，那就是一个问题。

— 阿克萨卡尔
source

4

我犯的一个错误是假设OLS中X和Y对称。例如，如果我假设线性关系与a和b由我的软件使用OLS给出，那么我认为假设X为Y的函数将使用OLS给出系数：是错误的。

Y = a X + b

$Y = a \, X + b$

X = \frac{1}{a} Y - \frac{b}{a}

$X = \frac{1}{a} \, Y - \frac{b}{a}$

也许这也与OLS和总最小二乘或第一主成分之间的差异有关。

— Jf Parmentier
source

3

在实践中，我经常看到的是对线性回归在某些用例中的适用性的误解。

例如，假设我们感兴趣的变量是某物的计数（例如：网站上的访问者）或某物的比率（例如：转化率）。在这种情况下，可以通过使用泊松（计数），贝塔（比率）等链接函数更好地对变量进行建模。因此，使用具有更适当链接函数的广义模型更合适。但是仅仅因为变量不是分类变量，所以我看到人们开始于简单的线性回归（链接函数=身份）。即使我们忽略了准确性的影响，建模假设也是一个问题。

— 杂文
source

2

我认为这是研究人员经常忽略的一个：

可变的交互作用：研究人员经常查看各个预测变量的孤立beta，甚至不指定交互作用项。但是在现实世界中，事物是相互作用的。如果没有正确指定所有可能的交互作用术语，您将不知道您的“预测变量”如何共同形成结果。而且，如果您要努力工作并指定所有互动，则预测变量的数量将会激增。根据我的计算，您只能研究4个变量及其与100个主题的相互作用。如果再添加一个变量，则很容易过拟合。

— 用户名
source

0

另一个常见的误解是，估计值（拟合值）对于变换不是不变的，例如

f ({\hat{y}}_{i}) \neq \hat{f (y_{i})}

$f(\hat{y}_i) \neq \widehat{f(y_i)}$ 通常，其中，基于拟合的回归值根据您估计的回归系数。

{\hat{y}}_{i} = {\vec{x}}_{i}^{T} \hat{β}

$\hat{y}_i = \vec{x}_i ^T \hat{\beta}$

如果这是单调函数所需的，而不一定是线性的，那么所需的就是分位数回归。 $f(\cdot)$

上面的等式在线性函数的线性回归中成立，但非线性函数（例如）将不成立。但是，这适用于分位数回归中的任何单调函数。 $log(\cdot)$

当您对数据进行对数转换，拟合线性回归，然后对拟合值求幂并被人们视为回归时，就会一直出现这种情况。这不是平均值，这是中位数（如果事物确实以对数正态分布的话）。

— 卢卡斯·罗伯茨（Lucas Roberts）
source