我正在使用Montgomery,Peck和Vining的《线性回归分析简介》学习线性回归。我想选择一个数据分析项目。
我天真地认为,仅当人们怀疑解释变量和响应变量之间存在线性函数关系时,线性回归才合适。但是,现实世界中似乎没有多少应用程序可以满足此标准。然而线性回归如此普遍。
经验丰富的统计学家会在考虑项目的哪些方面,如果它们适合我,那么他们会寻找非常适合线性回归的问题和数据。
我正在使用Montgomery,Peck和Vining的《线性回归分析简介》学习线性回归。我想选择一个数据分析项目。
我天真地认为,仅当人们怀疑解释变量和响应变量之间存在线性函数关系时,线性回归才合适。但是,现实世界中似乎没有多少应用程序可以满足此标准。然而线性回归如此普遍。
经验丰富的统计学家会在考虑项目的哪些方面,如果它们适合我,那么他们会寻找非常适合线性回归的问题和数据。
Answers:
我天真地认为,仅当人们怀疑解释变量和响应变量之间存在线性函数关系时,线性回归才合适。但是,现实世界中似乎没有多少应用程序可以满足此标准。
这不是对“线性回归”中“线性”的正确理解。
有与单个预测器的示例这里,但曲线模型更经常拟合为多重回归,其中在回归可能发生的预测(x变量,自变量)的多种功能,并且这允许很大的灵活性。例如,这包括多项式回归。在这里查看一些讨论和示例。
但是,如果我们允许对预测变量进行转换以适应曲线关系这一事实,则参数的线性也确实对应于那些转换后的预测变量中的线性。
此外,许多问题接近线性(至少在所考虑的值范围内),或者过于嘈杂,以至于无法辨认出任何轻微的曲率,并且可以使用各种简单模型来增加或减少关系-在这种情况下,线性选择可能既足够,又最容易拟合和理解。
经验丰富的统计学家会在考虑项目的哪些方面,如果它们适合我,那么他们会寻找非常适合线性回归的问题和数据。
我可能唯一一次寻求将回归应用于应用的问题是在我试图找到一个很好的教学示例时。当实际上处于进行统计工作的位置(而不是解释或教学)时,我选择的方法适合感兴趣的问题(以及数据的特征),而不是选择适合该方法的数据。
例如,想象一下一个木匠。木匠没有拿起剃须刀说“我可以用它做什么?”。相反,木匠有一个要解决的问题,在考虑问题的特征(“我要制造什么?”和“我要使用哪种木头?”等等)时,可能需要使用特定的工具。比其他人更相关。有时可用可能会限制或指导的选择工具(如果你不具备一个辐,你可能不得不凑合着用别的东西......或者您可能只需要去购买一辐)。
但是,我们假设您有一名口袋统计员来帮助您,并且您正在尝试寻找适合线性回归的问题。然后他们可能会建议您考虑各种回归假设以及何时考虑。我会提到几件事。
如果您能够使用多元回归,那也不是一个特别重要的问题,因为您可以使用(例如)三次回归样条来拟合相当一般的关系。
我建议您不要随着时间的流逝而清除数据,除非您了解虚假回归的问题。坚持横断面问题。
如果您对假设检验,置信区间或预测区间感兴趣,那么更多的常规回归假设可能很重要(但是有些替代方法不能做出这些假设,并且在某些情况下,至少某些假设可能不重要)尤其重要)。
因此,至少要了解的一件事是,在推导您正在使用的推理程序时所做的那些假设是什么,以及它们在您的特定问题中可能有多重要(例如,在执行常规假设检验时,正态性是一个假设,但在大样本中,该假设可能并不重要;另一方面,恒定方差的假设可能更成问题。
有很多帖子讨论了回归的假设,还有一些帖子讨论了什么时候需要进行回归,它们可能有多重要,甚至以什么顺序考虑。
) 好。在多年的经验中,您会发现某些变量(例如血压)在线性模型中表现良好,而其他变量(例如血液化学测量值)则表现不佳。
@Glen_b给出了一个很好的答案,但是,如前所述,并没有完成。
因此,关于您的最后一个问题:
我认为经验丰富的统计学家不会问这个问题。正如Glen所指出的,问题决定了要使用的工具,而不是相反。
如果我想学习线性回归之类的技术,我将使用已经工作过的示例-但是那些具有真实数据,而不是构成旨在使事情变得容易的数据。诸如示例回归建模之类的书可能会提供指导。
但是,研究回归问题的第一步就是确定线性回归实际上是否合适。
许多回应触及了需要满足的假设:残差的线性,预测变量范围内方差的均匀性,没有可能影响回归线的极值以及独立的观察结果。使用大多数回归程序可以很容易地生成残差图,并且某些软件包会自动提供残差图(SAS)。
一个人谈到了变换y。在某些领域,这是很普遍的做法,但这是导致有偏见甚至可能无法解释的结果的做法。当您尝试将结果反向转换为原始指标时,就会出现偏差。最好转到另一种类型的回归,该回归具有与残差的分布假设相匹配的残差模式。请参阅Agresti的《分类数据分析简介》中的第3章,其中介绍了链接的概念。许多回归教科书还介绍了广义线性模型。