我很好奇,对于那些与其他研究人员合作有丰富经验的人,您遇到的关于线性回归的最常见误解是什么?
我认为这是一个有用的练习,可以提前考虑常见的误解,以便
预测人们的错误并能够成功阐明为什么某些误解是不正确的
如果我自己怀有一些误解,请意识到!
我能想到的几个基本原则:
自变量/因变量必须正态分布
变量必须标准化才能准确解释
还有其他吗?
欢迎所有答复。
我很好奇,对于那些与其他研究人员合作有丰富经验的人,您遇到的关于线性回归的最常见误解是什么?
我认为这是一个有用的练习,可以提前考虑常见的误解,以便
预测人们的错误并能够成功阐明为什么某些误解是不正确的
如果我自己怀有一些误解,请意识到!
我能想到的几个基本原则:
自变量/因变量必须正态分布
变量必须标准化才能准确解释
还有其他吗?
欢迎所有答复。
Answers:
错误的前提:表示DV和IV之间没有牢固的关系。
非线性功能关系比比皆是,但是,如果假设关系必须是线性的,或者甚至近似是线性的,则由许多此类关系产生的数据通常会产生几乎为零的斜率。
相关地,在另一个错误的前提下,研究人员通常会假设 -可能是因为许多入门性回归教科书都讲到了-通过将DV回归到IV的多项式展开上建立一系列回归来“测试非线性”(例如,然后是,然后是由ÿ 〜β 0 + β X X + β X 2 X 2 + ε ÿ 〜β 0 + β X X + β X 2 X 2 + β X 3 X 3 + ε等)。正如直线不能很好地代表DV和IV之间的非线性函数关系,抛物线不能很好字面上表示的非线性关系的无限数量(例如正弦曲线,摆线,阶跃函数,饱和效应,S曲线等循环往复)。取而代之的是,可以采用一种不采用任何特定功能形式(例如,运行线平滑器,GAM等)的回归方法。
一个第三个错误的前提是增加估计的数量参数必然导致统计功率损耗。当真正的关系是非线性的并且需要多个参数进行估计时(例如,“断棍”功能不仅需要直线的截距和斜率项,还需要斜率发生变化的点以及变化量为多少),这可能是错误的。坡度变化 估计值):错误指定的模型(例如直线)的残差可能会变得非常大(相对于正确指定的函数关系),从而导致较低的拒绝概率和更宽的置信区间和预测区间(除了估计值有偏差) 。
通常认为只有数据会受到测量误差的影响(或者至少这是我们将要考虑的唯一误差)。但是,这忽略了测量中错误的可能性和后果。在变量不受实验控制的观察性研究中,这可能尤为严重。X X
回归稀释或回归衰减是Spearman(1904)认识到的现象,其中由于独立变量中存在测量误差,简单线性回归中的估计回归斜率偏向零。假设真实斜率是正的-抖动点的坐标(可能最容易可视化为“水平”塞点)的效果是使回归线不那么陡峭。凭直觉,由于正的测量误差,较大的点现在更可能是这样,而值则更有可能反映的真实(无错误)值,因此比真实直线要低。对于观察X ÿ X X。
在更复杂的模型中,变量中的测量误差会对参数估计值产生更复杂的影响。变量模型中存在一些错误,将此类错误考虑在内。Spearman建议使用校正因子来减弱双变量相关系数,并且已经针对更复杂的情况开发了其他校正因子。但是,这样的校正可能很困难-尤其是在多变量情况下并且在混杂因素的情况下-校正是否是真正的改进可能会引起争议,例如Smith和Phillips(1996)。
因此,我认为这是对一个价格的两个误解—一方面,认为我们写方式意味着“所有错误都在 ”而忽略了自变量中实际存在测量误差的可能性。另一方面,在诸如膝跳反应之类的所有情况下,不建议对测量误差盲目地应用“校正”(尽管首先采取措施减少测量误差可能是一个好主意) 。ÿ
(我可能还应该以越来越普遍的顺序链接到其他一些常见的变量误差模型:正交回归,戴明回归和总最小二乘法。)
参考文献
Smith,GD,和Phillips,AN(1996)。“ 流行病学中的通货膨胀:'重新审视和衡量两件事之间的联系 ”。英国医学杂志,312(7047),1659–1661。
Spearman,C.(1904年)。“证明和衡量两件事之间的联系。” 美国心理学杂志 15:72–101。
我说你列出的第一个可能是最常见的-也可能是最广泛传授这样-那是明明白白看到是错误的东西,但这里有一些其他的,在某些情况下不太清楚(是否确实适用),但可能会影响甚至可能更严重的分析。当引入回归主题时,通常根本不会提到这些。
将来自可能无法接近代表性的观察值的感兴趣集合视为随机样本(更不用说随机抽样了)。[相反,有些研究可被视为更接近便利性样本]
利用观测数据,只需忽略过程的重要驱动因素而造成的后果,这些驱动因素肯定会使所包含变量的系数估计值产生偏差(在许多情况下,甚至可能改变其符号),而无需尝试考虑处理方法与他们在一起(无论是出于对问题的无知还是仅仅是不知道任何事情都可以做)。[某些研究领域比其他研究领域更多地遇到了这个问题,无论是由于所收集的数据的种类,还是因为某些应用领域的人们更可能被教导有关此问题的信息。]
虚假回归(主要是随时间收集的数据)。[即使人们知道它发生了,也存在另一个普遍的误解,即简单地区别于假定的平稳状态就足以完全避免该问题。]
当然,还有很多其他人可能会提到(例如,处理几乎可以肯定是串行相关甚至是整合的独立数据可能差不多一样常见)。
您可能会注意到,随时间推移收集的数据的观察性研究可能会立即受到所有这些的影响……但是,这种研究在许多以回归为标准工具的研究领域中非常普遍。在没有一个审阅者或编辑者不了解其中至少一个并且结论中至少需要一定程度的免责声明的情况下,如何才能发表论文仍令我感到担忧。
当进行相当谨慎地控制的实验时(与可能不是那么仔细地控制的分析相结合),统计数据充满了无法再现的结果的问题,因此,一旦超出这些范围,可再现性状况必须恶化多少?
根据我的经验,学生经常接受这样一种观点,即平方误差(或OLS回归)本质上是适当,准确和整体上可以使用的好东西,甚至是别无选择。我经常看到OLS随广告一起登广告,说它“对更极端/越轨的观察给予了更大的重视”,并且在大多数情况下,至少它暗示这是理想的属性。当引入异常值和稳健方法的处理时,可以稍后修改此概念,但是此时损坏已经完成。可以说,从历史上看,平方误差的广泛使用与其数学上的便利有关,而不是与实际误差成本的某些自然定律有关。
总体而言,可以将更多的重点放在对误差函数的选择有些武断的理解上。理想情况下,算法中惩罚的任何选择均应以与潜在错误相关的相应实际成本函数为指导(即,使用决策框架)。为什么不先建立这个原则,然后看看我们能做得如何?
另一个常见的误解是误差项(或计量经济学术语中的干扰)和残差是同一件事。
误差项是真实模型或数据生成过程中的随机变量,通常被假定遵循一定的分布,而残差是所观测数据与拟合模型的偏差。这样,残差可以被认为是误差的估计。
我犯的一个错误是假设OLS中X和Y对称。例如,如果我假设线性关系 与a和b由我的软件使用OLS给出,那么我认为假设X为Y的函数将使用OLS给出系数: 是错误的。X = 1
也许这也与OLS和总最小二乘或第一主成分之间的差异有关。
另一个常见的误解是,估计值(拟合值)对于变换不是不变的,例如
ÿ我 = → X Ť 我β
如果这是单调函数所需的,而不一定是线性的,那么所需的就是分位数回归。
上面的等式在线性函数的线性回归中成立,但非线性函数(例如)将不成立。但是,这适用于分位数回归中的任何单调函数。
当您对数据进行对数转换,拟合线性回归,然后对拟合值求幂并被人们视为回归时,就会一直出现这种情况。这不是平均值,这是中位数(如果事物确实以对数正态分布的话)。