认为问题非常适合线性回归


12

我正在使用Montgomery,Peck和Vining的《线性回归分析简介》学习线性回归。我想选择一个数据分析项目。

我天真地认为,仅当人们怀疑解释变量和响应变量之间存在线性函数关系时,线性回归才合适。但是,现实世界中似乎没有多少应用程序可以满足此标准。然而线性回归如此普遍。

经验丰富的统计学家会在考虑项目的哪些方面,如果它们适合我,那么他们会寻找非常适合线性回归的问题和数据。


3
我感谢您正在学习一项技术,并想知道它在哪里工作。但是对于经验丰富的统计学家(以及具有统计学头脑的科学家),情况则完全相反:存在问题和数据,然后问题是哪种模型和方法是最佳选择。您将看到,第一次遇到线性回归只是一种味道。凭着经验,人们很高兴跳到Poisson回归,logit回归等,甚至参数的线性也可以轻松地与更一般的结构结合使用。
尼克·考克斯

当然还有时候观测可能自相关系列mdels
IrishStat

3
实际上,即使我们知道该关系是非线性的,也可以左右使用线性模型。可以将线性模型视为一阶逼近,是一种多元泰勒展开式。
阿克萨卡(Aksakal)

Answers:


12

我天真地认为,仅当人们怀疑解释变量和响应变量之间存在线性函数关系时,线性回归才合适。但是,现实世界中似乎没有多少应用程序可以满足此标准。

这不是对“线性回归”中“线性”的正确理解。

yx

yx

有与单个预测器的示例这里,但曲线模型更经常拟合为多重回归,其中在回归可能发生的预测(x变量,自变量)的多种功能,并且这允许很大的灵活性。例如,这包括多项式回归。在这里查看一些讨论和示例。

但是,如果我们允许对预测变量进行转换以适应曲线关系这一事实,则参数的线性也确实对应于那些转换后的预测变量中的线性。

此外,许多问题接近线性(至少在所考虑的值范围内),或者过于嘈杂,以至于无法辨认出任何轻微的曲率,并且可以使用各种简单模型来增加或减少关系-在这种情况下,线性选择可能既足够,又最容易拟合和理解。

经验丰富的统计学家会在考虑项目的哪些方面,如果它们适合我,那么他们会寻找非常适合线性回归的问题和数据。

我可能唯一一次寻求将回归应用于应用的问题是在我试图找到一个很好的教学示例时。当实际上处于进行统计工作的位置(而不是解释或教学)时,我选择的方法适合感兴趣的问题(以及数据的特征),而不是选择适合该方法的数据。

例如,想象一下一个木匠。木匠没有拿起剃须刀说“我可以用做什么?”。相反,木匠有一个要解决的问题,在考虑问题的特征(“我要制造什么?”和“我要使用哪种木头?”等等)时,可能需要使用特定的工具。比其他人更相关。有时可用可能会限制或指导的选择工具(如果你不具备一个辐,你可能不得不凑合着用别的东西......或者您可能只需要去购买一辐)。

但是,我们假设您有一名口袋统计员来帮助,并且您正在尝试寻找适合线性回归的问题。然后他们可能会建议您考虑各种回归假设以及何时考虑。我会提到几件事。

E(y|g(x))g(x)gx=xE(y|x)=a+bx

如果您能够使用多元回归,那也不是一个特别重要的问题,因为您可以使用(例如)三次回归样条来拟合相当一般的关系。

我建议您不要随着时间的流逝而清除数据,除非您了解虚假回归的问题。坚持横断面问题。

xx

x

如果您对假设检验,置信区间或预测区间感兴趣,那么更多的常规回归假设可能很重要(但是有些替代方法不能做出这些假设,并且在某些情况下,至少某些假设可能不重要)尤其重要)。

因此,至少要了解的一件事是,在推导您正在使用的推理程序时所做的那些假设是什么,以及它们在您的特定问题中可能有多重要(例如,在执行常规假设检验时,正态性是一个假设,但在大样本中,该假设可能并不重要;另一方面,恒定方差的假设可能更成问题。

有很多帖子讨论了回归的假设,还有一些帖子讨论了什么时候需要进行回归,它们可能有多重要,甚至以什么顺序考虑。


好的答案,但我认为它不能完全回答问题。 经验丰富的统计学家会在考虑项目的哪些方面,如果它们适合我,那么他们会寻找非常适合线性回归的问题和数据。仍然没有答案。
Dawny33

@ Dawny33我绝对打算以后再添加更多内容-在键入内容时出现了一些东西,使我无法写出原本打算的完整答案;我只有时间来完成我的句子,现在可能一两天都无法重读。确实,我什至没有时间纠正其中的所有错字。(与此同时,您应该毫不犹豫地发布答案。)另一方面,指出问题的前提是有缺陷的,可能会导致OP想要询问与他们原本打算不同的事情(通常情况是中心前提失败)
Glen_b-恢复莫妮卡

例如,我预计可能会出现一个新问题:“您有一个例子吗?”。
Glen_b-恢复莫妮卡

@Glen_b谢谢。“线性”是指模型在参数上是线性的。对不起,如果我写错了,我不是故意暗示。关键字是功能关键字。
cwackers 2015年

@Glen_b 他们可能会建议您考虑各种回归假设。再次同意。我对此并不明确,但我的问题更多是关于领域知识。我想知道经验丰富的统计学家在考虑进行LR分析的系统中会寻找什么,因此我幼稚的提议是存在与响应线性相关且在功能上相关的回归变量,并且它们与响应的同时关系是累加的。
cwackers 2015年

4

YYYYYX) 好。在多年的经验中,您会发现某些变量(例如血压)在线性模型中表现良好,而其他变量(例如血液化学测量值)则表现不佳。

YY


感谢您指出行为端正的方面。我想到的是回归变量的转换,而不是响应变量的转换。但是,我现在看到了如何使用后者来重塑残差的分布。感谢您填写一些图片。一个非常有用的帖子。
cwackers 2015年

3

@Glen_b给出了一个很好的答案,但是,如前所述,并没有完成。

因此,关于您的最后一个问题:

我认为经验丰富的统计学家不会问这个问题。正如Glen所指出的,问题决定了要使用的工具,而不是相反。

如果我想学习线性回归之类的技术,我将使用已经工作过的示例-但是那些具有真实数据,而不是构成旨在使事情变得容易的数据。诸如示例回归建模之类的书可能会提供指导。

但是,研究回归问题的第一步就是确定线性回归实际上是否合适。


我认为经验丰富的统计学家不会问这个问题。是的,这就是为什么我用“穿上鞋子”来限定我的Q的原因。非常感谢您的推荐书。我将查找副本。大量的例子至少可以帮助故事的一半,而反例则可以帮助另一半。
cwackers 2015年

啊,报价!从第四版的第2页开始:我们邀请读者考虑可以使用回归分析解决的问题(在他们自己的工作,研究或兴趣领域)。
cwackers 2015年

0

许多回应触及了需要满足的假设:残差的线性,预测变量范围内方差的均匀性,没有可能影响回归线的极值以及独立的观察结果。使用大多数回归程序可以很容易地生成残差图,并且某些软件包会自动提供残差图(SAS)。

一个人谈到了变换y。在某些领域,这是很普遍的做法,但这是导致有偏见甚至可能无法解释的结果的做法。当您尝试将结果反向转换为原始指标时,就会出现偏差。最好转到另一种类型的回归,该回归具有与残差的分布假设相匹配的残差模式。请参阅Agresti的《分类数据分析简介》中的第3章,其中介绍了链接的概念。许多回归教科书还介绍了广义线性模型。


我不同意对转型的悲观态度。毕竟,原始的转换是相当随意的。如果变换并获得具有对称分布的残差,则预测值的逆变换是原始比例上的预测中位数。预测的中位数非常有用。如果要按原始比例获得预测均值,则可以使用拖尾估计器。
Frank Harrell
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.