如何在回归模型中概念化误差?


11

我正在参加数据分析课程,而我一些根深蒂固的想法正在动摇。即,误差(ε)以及任何其他类型的方差的想法仅(据我认为)适用于一组(样本或整个人群)。现在,我们被告知回归假设之一是方差“对于所有个体都是相同的”。这在某种程度上令我震惊。我一直认为,假设所有X值中Y的方差都是恒定的。

我与教授聊天,他告诉我,当我们进行回归分析时,我们认为我们的模型是正确的。我认为那是棘手的部分。对我而言,误差项(epsilon)始终表示“诸如我们不知道的任何元素,它们可能会影响我们的结果变量,以及一些测量误差”。在课堂教学中,没有“其他东西”之类的东西。我们的模型假设是真实完整的。这意味着必须将所有残差视为测量误差的乘积(因此,一次测量20个人将产生与一次测量20个人相同的方差)。

我觉得某处有问题,对此我希望有一些专家意见...从概念上来讲,关于错误术语是什么还可以解释吗?


3
也许他的意思是,即使模型是真实的,响应中仍然存在随机变化-这可以通过误差方差来捕获-例如,这可以归因于不完善的测量设备。其他人有时将误差方差概念化为由于缺少预测变量而造成的误差(不一定是模型形式的误差),这意味着如果对所有可能的预测变量进行了测量,则误差方差将为0。这与第一个不一致-误差在测量中可以被认为是“缺少预测因素”。
2012年

我认为一开始总是很难理解的一件事是“错误”在这种情况下可能意味着不同的事情。“错误”可能是指我们从模型中获得的拟合值与观测值之间的差异(例如,差异可能是由于相当简约的模型所致)。“错误”还可能表示观察到的值与真实值之间的差异(差异可能是由于您用于测量值的设备四舍五入到最接近的整数/十分之一小数/等)。[第一种类型是您听到诸如“残差/残差方差”之类的

@Macro是的,在我看来,这似乎是错误的自然思维方式。但是,我试图理解为什么教授坚持对它进行更严格的定义(认为它适用于每个人,即使我们实际上知道这是不正确的)。
Dominic Comtois'2

@MikeWierzbicki对。如果我理解正确的话,那么所有这些都将集中在“严格”的观点中。这意味着观测值和预测值之间的所有差异都来自测量误差,因为我们的模型“必须为真”。
Dominic Comtois,2012年

Answers:


2

如果某人的某些方面对所得的y值有影响,那么要么有某种方法可以得出这些方面(在这种情况下它们应该成为预测变量x的一部分),要么根本就没有办法信息。

如果没有办法获得这些信息,也没有办法为每个人重复测量y值,那么这真的没关系。如果您可以重复测量y,并且您的数据集实际上包含对某些人的重复测量,那么您将面临潜在的问题,因为统计理论假设测量误差/残差是独立的。

例如,假设您正在尝试拟合以下形式的模型

ÿ=β0+β1个X

对于每个人来说

ÿ一世ñd=100+10X+ž

其中z取决于个人,并且通常以平均值0和标准偏差10进行分布。对于个人的每次重复测量,

ÿË一种s=100+10X+ž+Ë

其中平均值为0,标准差为0.1。 Ë

您可以尝试将其建模为

ÿ=β0+β1个X+ϵ

其中通常与均值为0,标准偏差分布ϵ

σ=102+0.12=100.01

只要您对每个人只有一个度量,那就没问题了。但是,如果您对同一个人进行多次测量,那么残差将不再是独立的!

例如,如果您有一个z = 15的个体(排除了1.5个标准偏差,所以不是那么不合理),并且对该个体进行了一百次重复测量,则使用和(精确值!)您最终将得到100个残差,其残差约为+1.5个标准偏差,这看起来极不可能。这将影响统计信息。 β 1 = 10 χ 2β0=100β1个=10χ2


我试图避免在回答中使用可怕的术语“多级建模”,但是您应该意识到,在某些情况下,它提供了一种处理这种情况的方法。
Brian Borchers 2012年

1

我认为最好将“错误”描述为“鉴于我们当前的信息,这是不可预测的部分”。尝试根据总体与样本进行思考会导致概念性问题(无论如何对我来说也是如此),以及根据某种分布将错误视为“纯粹随机”的错误也是如此。对预测和“可预测性”的思考对我来说更有意义。

我还认为,最大熵原理为理解为什么使用正态分布提供了一种巧妙的方法。对于建模,我们将分配错误分布以描述已知的错误。任何联合分布都可以代表一种可能的知识状态。但是,如果我们指定某种结构,例如则受此约束的最均匀分布是具有零均值和恒定方差正态分布E 1pË1个Ëñσ2σË1个ñ一世=1个ñË一世2=σ2σ2。这表明“独立性”和“恒定方差”实际上比在此约束条件下假设要安全得多-也就是说,平均第二矩存在并且是有限的,我们期望误差的一般大小为。σ

因此,考虑这一点的一种方法是,我们不一定会认为我们的假设是“正确的”,而是“安全的”,即我们没有在问题中注入很多信息(我们在仅施加了一个结构性约束)尺寸)。因此,我们从安全地带开始-我们可以从这里开始,具体取决于我们掌握的有关特定案件和手头数据集的特定信息。ñ


“统一”是什么意思:“那么受此约束最均匀的分布是均值为零且方差为正态分布”?σ2
2012年

我的意思是即均匀分布。pË1个Ëñ1个
概率

接近地说,我的意思是将KL散度最小化
概率

难题不在样本和总体之间。这是关于对个人和样本/人群适用的错误的思考。
Dominic Comtois,2012年


1

我不同意教授对此的表述。如您所说,每个个体的方差都相同的想法意味着误差项仅代表测量误差。通常,这不是构造基本多元回归模型的方式。就像您说的那样,方差是为一个组定义的(无论是一组单独的主题还是一组度量)。除非您反复采取措施,否则它不适用于个人。

需要完整的模型,因为误差项不应包含来自与预测变量相关的任何变量的影响。假设误差项与预测变量无关。如果省略了一些相关变量,您将获得偏差系数(这称为省略变量偏差)。


我不太明白这个答案。似乎已经认识到由于缺乏拟合和随机误差导致的误差之间的区别,但是最后一个修辞问题似乎令人困惑。从纯粹的形式角度来看,关于回归模型所做的任何推断基本上都取决于关于噪声结构的非常明确的假设。
主教

1
我的观点是,在很多情况下,即使我们不知道特定结果的所有原因,回归建模的目的也是弄清楚正在发生的事情。但似乎不清楚,我将删除该问题。
Anne Z.

谢谢。您的意见很重要。您所说的上一个问题可以理解为对回归理论所基于的整个基础的质疑。:)
主教

我同意您的不同意见(因此,我的问题!),而省略的变量偏差与问题非常相关。谢谢。
Dominic Comtois,2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.