在回归分析中,为什么我们将自变量称为“独立”?


30

我的意思是其中一些变量之间具有很强的相关性。我们如何/为什么/在什么情况下将它们定义为变量?


1
那是历史,来自法国的科学著作。我正在寻找参考。
Alecos Papadopoulos

1
我将一变量称为“潜在地相互依赖”,以避免推断因果关系。
QED

1
一个好问题!
拉斐尔·马拉祖拉

Answers:


29

如果我们从今天对机器学习的重视中撤出,并回顾为受控实验研究开发了多少统计分析,那么“独立变量”这个词就很有意义了。

在对照实验研究中,药物的选择及其浓度或每英亩的肥料及其用量由研究人员独立进行。关注的是关注的响应变量(例如,血压,农作物产量)如何取决于这些实验操作。理想情况下,应严格规定自变量的特征,在知道其值时基本没有错误。然后,例如,标准线性回归根据独立变量的值加上残差来建模因变量值之间的差异。

在受控实验研究的背景下,用于回归的相同数学形式主义也可以用于对观察到的数据集进行分析,而几乎不需要进行实验操作,因此将“独立变量”这一短语延续到此类类型并不奇怪。学习。但是,正如此页面上的其他人所述,这可能是一个不幸的选择,在这种情况下,“预测变量”或“功能”更为合适。


2
但是药物水平的选择取决于研究者的工作,这就是为什么我永远不记得是哪一个的原因。
mdewey

在机器学习中,“功能”通常是潜在的,不可观察的变量。“可观察的特征”更为常见。
尼尔·G

18

在许多方面,“独立变量”是一个不幸的选择。变量不必是相互独立的,当然不需要是独立的因变量的。在教学和我的《回归建模策略》一书中,我使用了预测变量一词。在某些情况下,该词不够强大,但平均而言效果很好。对统计模型中(右侧)变量的作用的完整描述可能太长,以至于每次都不能使用:的分布所依据的一组变量或度量。这是表示变量集的另一种方式,这些变量的分布我们目前不感兴趣,但将其值视为常量。YXY


因此,您只是说将输入变量称为“独立”是错误的做法?@弗兰克
阿马尔普雷特·辛格

11
绝对不假定它们独立于任何事物,因此这是错误的做法,仅出于习惯使用。
弗兰克·哈雷尔

1
“ Y的分布所依据的一组变量或度量” ...实际上,我确实将它们视为(有时称为它们)“条件变量”或“以其为条件的变量”,但时间不会太长描述并使用符号E(Y|X)
Silverfish '18

11

我同意这里的其他答案,即“独立”和“依赖”是较差的术语。正如EdM解释的那样,该术语是在受控实验的背景下出现的,在该实验中,研究人员可以彼此独立地设置回归变量。有许多不具有这种因果关系含义的优选术语,根据我的经验,统计学家倾向于使用更中性的术语。这里使用了许多其他术语,包括以下内容:

Yixi,1,...,xi,mResponsePredictorsRegressandRegressorsOutput variableInput variablesPredicted variableExplanatory variables

我个人使用术语解释变量和响应变量,因为这些术语没有统计独立性或控制权等含义。(有人可能会说“响应”具有因果关系,但这是一个相当弱的含义,所以我还没有发现问题。)


1
(+1)我想回归数/ regressand是最中立的术语,但我也更喜欢使用解释性/响应来解释。
弗朗斯·罗登堡

2
我同意倾向于使用中性术语的趋势,但是“解释性”对我来说似乎是因果关系,例如:“ X变量解释了为什么Y变量以其行为方式起作用”。
timwiz

1
我认为它是从概率意义上进行解释的,即它解释了响应变量分布的变化。您可能是对的,但在所有这些情况下,任何因果关系的含义都是微不足道的。
恢复莫妮卡

2
解释意味着因果关系,因此是不合适的。
弗兰克·哈雷尔

1
@弗兰克:我不一定同意这种观点。解释性源于“ explain”一词,因此我认为它仅暗示变量以某种方式解释了响应变量。这种解释可能是因果的,也可能仅仅是统计上的,我认为是后者。尽管如此,人们对这些词的含义的理解确实有所不同,所以我承认有些人会认为它具有因果关系。
恢复莫妮卡

9

添加到弗兰克·哈雷尔和彼得·弗洛姆的答案中:

我同意将变量称为“独立”或“依赖”通常会产生误导。但是仍然有人这样做。我曾经听到一个答案,为什么:

在回归分析中,我们有一个“特殊”的变量(通常表示为)和许多“不那么特殊的”变量(的),我们希望看到的变化如何的影响。换句话说,我们希望看到如何依赖于的。YXXYY X

这就是为什么被称为“从属”。如果将一个称为“依赖”,您将如何称呼另一个?Y


您说的是Y取决于X,因此Y称为因变量,这意味着X不取决于Y。但是在某些情况下,X可以取决于Y或与Y相关(所以它可以不再称为“独立”)。有什么看法吗?
Amarpreet Singh,

不,我不是说X不依赖于Y。我只是说,回归分析的最基本解释是它描述了Y如何依赖X。所以Y的最基本名称是“依赖于” “
卢卡斯Deryło

6
我不是要回答“我们应该称X独立吗?”这个问题。而是“为什么我们称它为独立?”,就像在您的文章标题
卢卡斯Deryło

5

“从属”和“独立”可能会使术语混淆。一种含义是伪因果关系,甚至是因果关系,这是在说“独立变量”和“因变量”时要表达的含义。我们的意思是说,DV在一定程度上取决于IV。因此,例如,在对成年人的身高与体重关系进行建模时,我们说体重是DV,身高是IV。

这确实捕获了“预测变量”所没有的东西,即关系的方向。身高可以预测体重,但体重也可以预测身高。也就是说,如果告诉您猜测人们的身高并告诉他们的体重,那将很有用。

但是我们不会说身高取决于体重。


您是否对SEM模型有具体要求?
Amarpreet Singh,

不,我在想回归。
彼得·弗洛姆-恢复莫妮卡

好的,这只是名称问题。我感到困惑的是,将输入变量称为“独立”是有意义的。
Amarpreet Singh,

12
DV和IV是常见的缩写(我个人不喜欢),但要提防许多经济学家和其他一些社会科学家,IV仅对它们意味着工具变量。遇见DV只代表Deo volente(上帝愿意)的人是很少见的。
尼克·考克斯

0

根据上述答案,是的,我同意该因变量和自变量是弱术语。但是我可以解释一下我们许多人使用它的上下文。您说对于一般回归问题,我们有一个输出变量,例如Y,其值取决于其他输入变量,例如x1,x2,x3。这就是为什么它被称为“因变量”的原因。并且类似地取决于上下文,并且仅为了区分输出变量和输入变量,x1,x2,x3被称为自变量。因为与Y不同,它不依赖于任何其他变量(但是,在这里,我们并不是在谈论它们之间的依赖关系。)


你回答类似@Ramya R的
Amarpreet辛格

-2

自变量被称为自变量,因为它们不依赖于其他变量。例如,考虑房价预测问题。假设我们有关于house_size,位置和house_price的数据。在这里,house_price是根据house_size和位置确定的,但是位置和house_size可能因不同房屋而异。


4
有时回归中的所谓“独立”变量是相关的。因此,它们不一定在统计上独立。最好将它们称为预测变量。
Michael R. Chernick '18年

Micheal,感谢您指出。我有一个后续问题。如果我们有两个共线性的预测变量,我们是否不丢弃其中一个变量来消除多重共线性问题,以便我们的预测变量彼​​此独立?
Ramya R

1
不必要。它取决于它是否影响估计的稳定性,以及当同时包含两个变量时预测的强度。如果两个变量的相关性为0.1,则它们不是独立的,但它们之间的关系很弱。
Michael R. Chernick
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.