Answers:
如果我们从今天对机器学习的重视中撤出,并回顾为受控实验研究开发了多少统计分析,那么“独立变量”这个词就很有意义了。
在对照实验研究中,药物的选择及其浓度或每英亩的肥料及其用量由研究人员独立进行。关注的是关注的响应变量(例如,血压,农作物产量)如何取决于这些实验操作。理想情况下,应严格规定自变量的特征,在知道其值时基本没有错误。然后,例如,标准线性回归根据独立变量的值加上残差来建模因变量值之间的差异。
在受控实验研究的背景下,用于回归的相同数学形式主义也可以用于对观察到的数据集进行分析,而几乎不需要进行实验操作,因此将“独立变量”这一短语延续到此类类型并不奇怪。学习。但是,正如此页面上的其他人所述,这可能是一个不幸的选择,在这种情况下,“预测变量”或“功能”更为合适。
在许多方面,“独立变量”是一个不幸的选择。变量不必是相互独立的,当然不需要是独立的因变量的。在教学和我的《回归建模策略》一书中,我使用了预测变量一词。在某些情况下,该词不够强大,但平均而言效果很好。对统计模型中(右侧)变量的作用的完整描述可能太长,以至于每次都不能使用:的分布所依据的一组变量或度量。这是表示变量集的另一种方式,这些变量的分布我们目前不感兴趣,但将其值视为常量。
我同意这里的其他答案,即“独立”和“依赖”是较差的术语。正如EdM解释的那样,该术语是在受控实验的背景下出现的,在该实验中,研究人员可以彼此独立地设置回归变量。有许多不具有这种因果关系含义的优选术语,根据我的经验,统计学家倾向于使用更中性的术语。这里使用了许多其他术语,包括以下内容:
我个人使用术语解释变量和响应变量,因为这些术语没有统计独立性或控制权等含义。(有人可能会说“响应”具有因果关系,但这是一个相当弱的含义,所以我还没有发现问题。)
添加到弗兰克·哈雷尔和彼得·弗洛姆的答案中:
我同意将变量称为“独立”或“依赖”通常会产生误导。但是仍然有人这样做。我曾经听到一个答案,为什么:
在回归分析中,我们有一个“特殊”的变量(通常表示为)和许多“不那么特殊的”变量(的),我们希望看到的变化如何的影响。换句话说,我们希望看到如何依赖于的。
这就是为什么被称为“从属”。如果将一个称为“依赖”,您将如何称呼另一个?
“从属”和“独立”可能会使术语混淆。一种含义是伪因果关系,甚至是因果关系,这是在说“独立变量”和“因变量”时要表达的含义。我们的意思是说,DV在一定程度上取决于IV。因此,例如,在对成年人的身高与体重关系进行建模时,我们说体重是DV,身高是IV。
这确实捕获了“预测变量”所没有的东西,即关系的方向。身高可以预测体重,但体重也可以预测身高。也就是说,如果告诉您猜测人们的身高并告诉他们的体重,那将很有用。
但是我们不会说身高取决于体重。
根据上述答案,是的,我同意该因变量和自变量是弱术语。但是我可以解释一下我们许多人使用它的上下文。您说对于一般回归问题,我们有一个输出变量,例如Y,其值取决于其他输入变量,例如x1,x2,x3。这就是为什么它被称为“因变量”的原因。并且类似地仅取决于此上下文,并且仅为了区分输出变量和输入变量,x1,x2,x3被称为自变量。因为与Y不同,它不依赖于任何其他变量(但是,在这里,我们并不是在谈论它们之间的依赖关系。)
自变量被称为自变量,因为它们不依赖于其他变量。例如,考虑房价预测问题。假设我们有关于house_size,位置和house_price的数据。在这里,house_price是根据house_size和位置确定的,但是位置和house_size可能因不同房屋而异。