为什么我们需要多元回归(而不是一堆单变量回归)?


28

我刚刚浏览了这本精彩的书:Johnson和Wichern的应用多元统计分析。具有讽刺意味的是,我仍然无法理解使用多变量(回归)模型而不是单独的单变量(回归)模型的动机。我经历了stats.statexchange帖子12,它们解释了(a)多元回归和多元回归之间的差异和(b)多元回归结果的解释,但是我无法根据所有信息调整使用多元统计模型上网了解他们。

我的问题是:

  1. 为什么我们需要多元回归?为了得出推论,同时考虑结果而不是单独考虑结果的好处是什么。
  2. 何时使用多元模型以及何时使用多个单变量模型(针对多个结果)。
  3. 举一个在UCLA网站上给出的例子,它具有三个结果:控制源,自我概念和动机。关于1.和2.,当我们进行三个单变量多元回归与一个多元多元回归时,我们可以比较分析吗?如何证明彼此的正当性?
  4. 我还没有碰到很多利用多元统计模型的学术论文。这是因为存在多元正态性假设,模型拟合/解释的复杂性还是任何其他特定原因?

18
单独的单变量模型会忽略相关性。
jwimberley

3
是的,世界上有许多现象无法用独立的随机变量来建模。
Michael R. Chernick

2
@jwimberley您能否在答案中扩展忽略这些相关性的后果?
杰克·韦斯特伦

2
只需在标题上注明:降维(PCA,因子分析,任何非线性方法等)和聚类通常也被视为“多元”方法。看来您的问题专门针对多变量回归(相对于一堆单变量回归),所以我建议您直接将其放在标题中。+1 btw。
变形虫说莫妮卡(Monica)恢复职权

2
相对于ANOVA而言,MANOVA如何可以带来收益的简单示例:stats.stackexchange.com/questions/129123。一个相反的情况,MANOVA仍然是有益的,但出于不同的原因:stats.stackexchange.com/questions/61921。因此,MANOVA可以:(i)提供更多功能,(ii)控制总体错误率。
变形虫说莫妮卡(Monica)恢复职权

Answers:


22

您是否在链接的UCLA网站上阅读了完整的示例?

关于1:
使用多元模型可帮助您(正式地,推论地)比较各个结果的系数。
在该链接示例中,他们使用多元模型来测试结果的write系数与locus_of_control结果的系数是否显着不同self_concept。我不是心理学家,但想问一下您的写作能力是否以相同的方式影响/预测两个不同的心理变量,这很有趣。(或者,如果我们不相信空,它仍然是有趣的问题是否已经收集足够的数据来证明有说服力,效果确实有所不同。)
如果你跑了独立的单变量分析,这将是难以比较write两个模型的系数。两种估计都将来自同一数据集,因此它们将相互关联。多元模型说明了这种相关性。

此外,对于4:
一些很常用的多元模式,如重复测量方差分析。通过适当的研究设计,想象一下您给每位患者服用了几种药物,并在每种药物服用后测量了每位患者的健康状况。或者想象一下,随着时间的推移,您测量的是相同的结果,例如纵向数据,即随着时间的推移孩子的身高。然后,每个单元都有多个结果(即使只是重复“相同”类型的测量)。您可能至少需要做一些简单的对比:比较药物A与药物B的作用,或比较药物A和B与安慰剂的平均作用。为此,重复测量方差分析是一种合适的多元统计模型/分析。


1
您给了一个很好的答案。我绝对知道,还有很多其他例子和论据可以提出。我喜欢您从UCLA链接中获取信息以显示OP。坦率地说,我最初对此问题感到恼怒,但是当我意识到OP真诚地希望在这里提出良好的论据并且没有提出忽略多元方法的想法时,我决定提供一个答案。我的选择是显示一些示例,其中忽略关联会带来真正的破坏性和致命后果。
Michael R. Chernick

1
我欢迎您的回答,并希望有更多经过深思熟虑的答案,使之成为有价值的话题。
Michael R. Chernick

感谢您的出色回答,@ civilstat。在第1点中,如果我们运行两个独立的单变量模型,您已经提到输入变量系数(write例如,对于系数)将是相关的,而多元模型则说明了这一点。这是我想获得更多了解的地方。如果有适当的动机,可以使用因子分析或其他技术将locus_of_control和self_concept合并为一个度量,并且可以对所得度量进行建模。如果两者都测量两个不同的Psyc。现象,我们通过同时建模来获得什么?
KarthikS

2
@ManuelFazio请参见UCLA网站上的下一句话:“为什么要进行多元回归?如前所述,使用mvreg的优点之一是可以对不同结果变量进行系数测试。” 如果您进行单独的回归分析,则每个结果将获得相同的系数和SE ,但不会获得跨结果的系数之间相关性的估计。例如,如果您想获得动机结果与self_concept结果的阅读系数差异的CI,则需要这种相关性。
civilstat '17

1
@civilstat啊,对不起我,独立性假设在我心中根深蒂固,即使我读了那句话也没有点击。感谢您的扩展解释!
zipzapboing

11

考虑一下简单地乘以概率得出的所有错误的,有时甚至是危险的结论,认为事件是独立的。 由于所有内置的冗余保障措施,我们使用独立性假设告诉我们的核电厂专家,告诉我们发生重大核事故的机会是无限的。 但是,正如我们在三哩岛所看到的那样,人类会犯相关的错误,尤其是当他们处于恐慌状态时,因为一个初始错误会很快使自身恶化。构建一个表征人类行为特征的现实多元模型可能很困难,但是很明显地意识到一个可怕模型(独立错误)的影响。

还有许多其他示例。我将以挑战者号航天飞机灾难为例。 问题是是否在低温条件下发射。有数据表明,O型圈在低温下可能会失效。但是通过的任务并没有太多数据可以清楚地说明风险有多高。NASA一直关注宇航员的安全,许多冗余设计用于航天器和运载火箭,以确保飞行任务的安全。

但是,在1986年之前,由于未识别所有可能的故障模式而导致了一些系统故障和接近故障(一项艰巨的任务)。可靠性建模是一项艰巨的任务。不过那是另一回事了。对于航天飞机,O形圈的制造商(Morton Thiokol)已经对O形圈进行了一些测试,表明在低温下可能会发生故障。

但是,少数任务的数据确实显示了温度和故障之间的某种关系,但是由于冗余导致一些管理员认为不会发生多个O形圈故障,因此给NASA发射压力。

当然,还有许多其他因素导致了这一决定。还记得里根总统是多么急于将一名教师放到太空中,以证明现在已经足够安全了,因此,不是宇航员的普通人可以安全地乘坐航天飞机旅行。因此,政治压力是影响该决定的另一个重要因素。在这种情况下,如果有足够的数据和多变量模型,则可以更好地证明风险。美国国家航空航天局(NASA)尝试在谨慎方面犯错误。在这种情况下,将发射推迟几天,直到佛罗里达的天气变暖才是明智的。

灾后委员会,工程师,科学家和统计学家进行了大量分析,并发表了论文。他们的观点可能与我的不同。爱德华·塔夫特(Edward Tufte)在其有关图形的书籍系列中之一表明,好的图形可能更具说服力。但最后,尽管这些分析都有其优点,但我认为政治仍会胜出。

这些故事的寓意不是因为这些灾难促使人们使用了多元方法,而是因为忽视了依赖性的不良分析有时会导致对风险的严重低估。这可能导致过度自信,这很危险。正如jwimberley在对该线程的第一条评论中指出的那样:“单独的单变量模型会忽略相关性。”


感谢您的精彩示例,@ MichaelChernick。据我了解,独立性的假设值得关注。我对结果之间的相互关系以及同时对它们进行建模的需求感到好奇。
KarthikS

让我们以挑战者号航天飞机灾难本身为例。在这里,单变量结果是二进制的-发射航天飞机是否安全。考虑尝试执行许多操作的模型,例如预测安全性,测量轨迹偏差并预测航天飞机的室内压力。一种方法可能是针对每种模型建立单独的模型,另一种方法可能是考虑所有模型,该模型不仅试图捕获输入的影响(温度,湿度等),而且还要检查同时发生的情况。对结果的影响。
KarthikS

1
谢谢@MichaelChernick。我不确定我是否完全理解你的论点。我知道,我们中的许多人都使用单变量和多变量回归进行具有单个输入和多个输入变量的简单线性回归(在这种情况下,将检查多个输入的同时影响)。但是,我已经针对具有一个结果(单变量)或多个结果(多变量)的模型提出了这个问题。如果“挑战者”案例没有涉及多变量结果用例,那么您是否可以提及一个有效的案例。感谢您继续讨论。
KarthikS

令您惊讶的是,您感到惊讶。当赏金收到很少的无评论时,通常会完成赏金;如果包含答案,赏金就不会涵盖问题的某些重要方面。此主题提供了三个好的答案和大量的评论(真的很不错,就像jwimberley的第一个评论一样。)
Michael R.

我不确定您还想要什么。这个问题非常广泛,似乎更多的是讨论,而不是技术性的讨论。在我看来,您似乎想让别人说单变量分析在复杂情况下是可以的。我不会尝试赏金的,很有趣的是,在接下来的7天里,有人会尝试它,如果他们这样做,您会接受它。挑战者灾难可以看作是单变量的结果,但是我认为,仅凭单变量方法就无法彻底解决任何想像力。
Michael R. Chernick

7

考虑p中的这句话。达西·奥尔森(Darcy Olsen)的著作《尝试权 [1]》中的36 :

但是在[eteplirsen]注射开始后大约十六周,Jenn开始注意到[她的儿子] Max的变化。她说:“孩子不再想坐轮椅了。” 几周后,他被要求在户外玩,这是他多年来没有做过的事情。然后马克斯开始恢复他的精细运动技能。他能够再次打开容器-随着[杜尚氏肌营养不良症]的发展,他已经丧失了这项技能。

马克斯的母亲爵正在建设一个连贯的他的进步,通过从多个结果汇集证据逐一可能被解雇的“噪音”,但同时也相当引人注目。(这一证据综合原则是儿科医生通常从不拒绝父母本能的推断“我的孩子出了问题”的部分原因。父母可以对他们的孩子进行“多元纵向分析”,远比“寡变”丰富。在一次简短的临床遭遇中,临床医生可以进行的横截面分析。)

p>0.05

实现此类证据综合是临床试验中多变量结果分析的核心原理。几年前,医学研究中的统计方法有一个特殊问题 [2],专门讨论多元结果的“联合建模”。

  1. 奥尔森,达西。尝试权:联邦政府如何阻止美国人获得他们所需的挽救生命的治疗。第一版。纽约,纽约:哈珀(Harper),HarperCollins Publishers的烙印,2015年。
  2. Rizopoulos,Dimitris和Emmanuel Lesaffre。“关于联合建模技术的特殊问题简介”。医学研究中的统计方法,第23号。1(2014年2月1日):3-10。doi:10.1177 / 0962280212445800。

6

让我们做一个简单的类比,因为这就是我真正可以做出的贡献。代替单变量与多元回归,我们考虑单变量(边际)与多元(联合)分布。说我有以下数据,并且我想找到“异常值”。作为第一种方法,我可以使用两个边际(“单变量”)分布,并分别在各自的较低2.5%和较高2.5%处绘制线。落在结果线之外的点被认为是离群值。

但是有两件事:1)对于一个轴的线外但另一轴的线内的点,我们怎么看?他们是“部分离群值”还是什么?2)结果得到的盒子看起来并不像我们想要的那样。原因当然是两个变量是相关的,而我们直觉上想要的是找到结合了变量的异常值。

在这种情况下,我们查看关节的分布,并且通过对点到中心的Mahalanobis距离是否在上5%以内来对点进行颜色编码。黑点看起来更象异常,即使有些离群骗内集的绿线和一些非异常值(红色)的谎言外套的绿线。

在这两种情况下,我们都划定了95%和5%的界限,但是第二种方法考虑了联合分布。我相信多元回归就是这样,用“回归”代替“分布”。我没有完全理解它,也没有必要(据我所知)自己进行多元回归,但这是我考虑的方式。

[类推有问题:马氏距离将两个变量简化为一个数字-类似于单变量回归采用一组自变量的方式,并且可以使用正确的技术将自变量之间的协方差考虑在内,并得出结果在单个因变量中-而多元回归会导致多个因变量。因此,它有点倒退,但希望能够向前,足以产生一些直觉。

在此处输入图片说明


1
我喜欢这个。我将使用外部椭圆来定义离群值。正如我所看到的,在x或y方向上,一个点可能远离均值,但仍位于一个与回归线相距不远的椭圆内。
Michael R. Chernick

3

1)自然并不总是那么简单。实际上,我们研究的大多数现象(结果)都以复杂的方式依赖于多个变量。一次基于一个变量的推论模型很可能具有较高的偏差。

2)根据定义,单变量模型是您可以构建的最简单的模型。如果您是第一次调查问题,并且想掌握其唯一,最基本的功能,那就很好。但是,如果您希望对此有更深入的了解,那么您可以真正使用该理解,因为您信任自己所做的事情,因此可以使用多元分析。在多变量模型中,如果您关心模型的准确性,那么您应该更喜欢那些能够理解相关模式的模型。

3)对不起,没有时间阅读此内容。

4)如今,使用多元技术的论文非常普遍,甚至在某些领域也极为普遍。在使用大型强子对撞机数据的CERN实验中(以粒子物理学为例),每年发表的数百篇论文中有一半以上以一种或另一种方式使用多元技术

https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=最早日期&so = d&rm =&rg = 25&sc = 0


我想你的意思是说,单变量模型是仅具有输入的模型,而多元模型是具有多个输入的模型。我的问题是关于在模型中同时分析的多个结果。
KarthikS

1
您将多元/单因素回归与多元/单一回归混合在一起。
Firebug

1

我的答案取决于您要对回归做些什么。如果您要比较不同系数的影响,那么回归可能不是适合您的工具。如果您尝试使用已经证明是独立的不同系数来进行预测,那么也许应该使用多元回归。

这些因素是否相关?如果是这样,则多元回归会给您带来不好的模型,您应该使用VIF或岭回归等方法来修剪互相关。在消除互相关因素之前,您不应该比较系数。这样做会导致灾难。如果它们不是互相关的,则多元系数应与单变量系数具有可比性,这不足为奇。

结果可能还取决于您使用的软件包。我不是在开玩笑。不同的软件包使用不同的方法来计算多元回归。(不相信我吗?请检查标准R回归软件包在没有强制将原点作为截距的情况下如何计算R 2。您的下巴应该落在地板上。)您需要了解软件包如何执行回归。如何补偿互相关?是执行顺序解决方案还是矩阵解决方案?过去我对此一直感到沮丧。我建议在不同的软件包上执行多元回归,然后看看会得到什么。

这里的另一个很好的例子:

注意,在该方程式中,回归系数(或B系数)表示每个自变量对因变量的预测的独立贡献。表达这一事实的另一种方式是说,例如,在控制所有其他自变量之后,变量X1与Y变量相关。这种相关性也称为部分相关(Yule,1907年首次使用此术语)。也许下面的例子可以澄清这个问题。您可能会发现人口中的头发长度与身高之间存在显着的负相关关系(即,矮个子的人头发更长)。起初,这似乎很奇怪。但是,如果我们将变量Gender添加到多元回归方程中,则这种相关性可能会消失。这是因为女性平均而言比男性长。他们平均也比男人短。因此,在通过将Gender输入方程式消除了这种性别差异之后,头发长度与身高之间的关系就消失了,因为头发长度并没有对身高的预测做出任何独特的贡献,超过了其在变量Gender中所占的比例。换句话说,在控制了变量Gender之后,头发长度和高度之间的部分相关为零。头发长度和身高之间的关系消失了,因为头发长度对身高的预测并没有做出任何独特的贡献,超过了性别变量在预测中所占的比例。换句话说,在控制了变量Gender之后,头发长度和高度之间的部分相关为零。头发长度和身高之间的关系消失了,因为头发长度对身高的预测并没有做出任何独特的贡献,超过了性别变量在预测中所占的比例。换句话说,在控制了变量Gender之后,头发长度和高度之间的部分相关为零。 http://www.statsoft.com/Textbook/Multiple-Regression

使用多重回归有很多陷阱,我试图避免使用它。如果要使用它,请非常小心结果并再次检查。您应该始终以可视方式绘制数据以验证相关性。(只是因为您的软件程序说没有相关性,并不意味着就没有相关性。 有趣的相关性)始终对照常识检查结果。如果一个因素在单变量回归中显示出很强的相关性,而在多元变量中则没有,那么您需要在共享结果之前先了解原因(上面的性别因素就是一个很好的例子)。


检查标准R回归程序包如何在有或没有强制将原点作为截距的情况下计算R2。 ”尽管它可能会使那些不期望它的人感到困惑,但是R在这种情况下的作用是实际上在每个统计软件中实现的标准方法我检查过的包装。
Jake Westfall'Mar

有趣。我看过分析师不了解这种差异的已发表论文。您是否在网上看到有关该主题的精彩讨论?我应该就此向简历提出新问题吗?
Maddenker '17

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.