拟合线性模型后,是否可以将拟合残差分解为偏差和方差?


9

我想将数据点分类为需要更复杂的模型,或者不需要更复杂的模型。我目前的想法是将所有数据拟合为简单的线性模型,并观察残差的大小以进行此分类。然后,我读了一些关于误差的偏差和方差贡献的信息,并意识到,如果我可以直接计算偏差,那么使用总误差(残差或标准残差)可能是更好的方法。

是否可以使用线性模型直接估算偏差?有无测试数据?交叉验证是否对您有帮助?

如果不是,是否可以使用线性模型的平均自举合奏(我认为它称为装袋)来近似偏差?


1
也许这些是等效的(残差还是偏差),因为常数是方差?
kmace

1
您能通过帖子的第一句话澄清您的意思吗?在这种情况下,您要将“数据点”(个人观察?)分类为“需要更复杂的模型,或者不需要更复杂的模型”。我不清楚这到底是什么意思(虽然听起来像是异常检测或其他拟合优度问题),或者它与以后有关估计偏差的问题之间的关系如何。
瑞安·西蒙斯

我的意思是说,我的样本中有一个子集具有不同的目标函数。因此,假设对于大多数样本,真正的目标函数如下:f 1x = 3 x 1 + 2 x 2而对于少数样本,目标函数为:f 2x = 3 x 1 + 2 x 2 + x 1 x 2f(x)f1(x)=3x1+2x2f2(x)=3x1+2x2+x1x2。如果我在模型中不允许交互项(我的假设集不包含交互项),那么我应该拟合所有数据,并观察到误差较大的样本可能具有目标函数f2
kmace

2
正如瑞安(Ryan)指出的那样,这个问题并不是很清楚。您的评论指向“拟合优度”的方向。但是这不可能扭转。您似乎在脑子里有一个先入为主的概念,这是令人误解的。如果您将模型和一些数据结合起来并确定模型参数,则可以计算出很多东西。但是,鉴于您总是从统计上有限的数据集入手,因此,您可以通过用更多或更多的铲子挖掘来揭开谜底。您采用的任何方法都不会产生真理,但它可能表明您有多错误。
天使

Answers:


12

通常,您无法将误差(残差)分解为偏差和方差分量。原因很简单,您通常不了解真正的功能。回想一下,并且˚F X 是要估计未知的事情。bias(f^(x))=E[f^(x)f(x)],f(x)

自举呢? 它可以通过估计的引导估计的偏差,但它不是装袋模式,我不相信有就是用引导评估偏置的方式˚FX 因为引导仍是基于出于某种关于真理的观念,尽管其名称由来,但还是不能从无到有地创造出某种东西。f^(x),

澄清:偏置在估计自举估计θ^ b 一个小号 = θ *- θθ^

bias^B=θ^()θ^,

θ^()B θ^

f1(x)=3x1+2x2f2(x)=3x1+2x2+x1x2


8

可以估算分解的一种情况是,如果您有重复的点(即,对预测变量的各种组合具有多个响应)。

这主要限于您可以控制自变量的情况(例如在实验中)或它们都是离散的(当x组合不太多且您可以获取足够大的样本以进行x值组合时)获得多个积分)。

复制的点为您提供了一种无模型的估算条件均值的方法。在这种情况下,可能会把残差平方和分解为纯误差和不拟合,但您也可以对x值的每种组合都具有直接的(尽管一定是嘈杂的)偏差估计,对此您会有多个响应。


我认为这行不通。考虑一下您从模型中省略了一个重要的解释变量的情况。如果该解释变量与所有其他解释变量正交,则我相信使用此方法或其他答案中建议的任何其他方法都无法检测到其影响(或没有影响)。
Cagdas Ozgenc

2
@Cagdas并非在所有情况下都有效;它从指定的模型形式中检测出偏差,但不一定会缺少预测变量
Glen_b-恢复莫妮卡(Monica),2017年

1

在稍微复杂一些的卡尔曼滤波领域中,有时人们测试残差(观察到的测量值减去预测的测量值)以寻找模型变化或故障情况。从理论上讲,如果模型是完美的,并且噪声是高斯噪声,则残差也应该是均值为零的高斯噪声,并且还应与预测的协方差矩阵一致。人们可以通过诸如顺序概率比测试(SPRT)之类的顺序测试来检验非零均值。您的情况有所不同,因为您拥有一批固定的数据,而不是稳定的新数据流。但是,查看残差样本分布的基本思想可能仍然适用。

您指出您正在建模的过程可能会偶尔更改。然后,要对所拥有的数据进行更多处理,您可能需要确定导致该变化的其他因素。考虑两种可能性:(1)可能需要局部模型而不是一个全局模型,例如,因为仅在某些操作区域中存在严重的非线性,或者(2)可能是过程随时间而变化。

如果这是一个物理系统,并且您的样本没有间隔很长时间,那么这些过程更改可能会在相当长的一段时间内持续存在。也就是说,真实的模型参数可能会偶尔更改,并持续一段时间。如果您的数据带有时间戳,您可能会查看一段时间后的残差。例如,假设您使用所有数据拟合y = Ax + b,找到A和b。然后返回并测试残差序列r [k] = y [k]-Ax [k]-b,其中k是与按顺序排列的时间相对应的索引。寻找一段时间内的模式,例如,|| r [k] ||之类的摘要统计信息 保持高于正常水平一段时间。顺序测试对于检测持续的偏差类型的错误(例如对于单个矢量索引的SPRT甚至CUSUM之类的错误)最敏感。


1

答案是否定的,因为偏差和方差是模型参数的属性,而不是模型参数的属性。该陈述有一个部分例外,它涉及在预测变量空间中的偏差和方差变化(ha!)。下面的更多内容。注意,这与知道一些与预测变量和响应变量有关的“真实”函数完全无关。

考虑线性回归中的估计,其中是预测变量的矩阵,是参数估计的向量,和是一个的矢量响应。出于辩论的原因,让我们假设有无数的数据可供提取(顺便说一句,这并不是完全荒谬的-如果我们正在积极地记录某些物理过程中的数据,则可以快速记录预测值和响应数据,因此实际上满足了这一假设)。因此,我们绘制了观测值,每个观测值都包含一个响应值和每个观测值的值βXÑ×P β P×1ŸÑ×1ñP β ÑËřÑÑËř β ÑPβ^=(XTX)1XTYXN×Pβ^P×1YN×1NP预测变量。然后,我们计算的估计值并记录值。然后让我们进行整个过程,并重复次,每次从总体中抽取独立抽签。我们将累积估计,通过该估计,我们可以计算出参数向量中每个元素的方差。注意,假设预测变量的正交性,这些参数估计的方差与成反比,与成正比。β^NiterNNiterβ^NP

可以类似地估计每个参数的偏差。尽管我们可能无法使用“ true”函数,但让我们假设可以从总体中任意抽取大量笔数来计算,它将用作“ true”参数值的代理。我们将假定这是一个无偏估计(通常是最小二乘),并且所使用的观察数足够大,因此该估计的方差可以忽略不计。对于每个参数,我们计算,其中范围是到。我们将这些差异的平均值作为对相应参数偏差的估计。P β bË小号Ĵ - β ĴĴ1ñËřβ^bestPβ^bestjβ^jj1Niter

有将偏差和方差与数据本身相关联的相应方法,但它们稍微复杂一些。如您所见,可以为线性模型估计偏差和方差,但是您将需要大量保留数据。一个更隐蔽的问题是,一旦您开始使用固定的数据集,您的分析将被您的个人差异所污染,因为您已经开始在分叉路径的花园中徘徊,并且无法知道会复制样本外的内容(除非您只是想出一个模型并进行分析,然后再承诺不做任何处理)。

关于数据点本身的问题,最正确(也是微不足道的)答案是,如果与之间存在差异,Ÿ Ÿ - Ÿ Ÿ = X β β ÿ XYY^,则需要一个更复杂的模型(假设您可以正确识别所有相关的预测变量;不能)。在没有对“错误”的哲学本质进行无聊的论述的情况下,最重要的是,正在发生的某件事导致您的模型错过了它的标记。问题在于,增加复杂性会增加方差,这很可能导致其错过其他数据点上的标记。因此,担心单个数据点级别的错误归因不太可能是富有成果的。例外(在第一段中提到)是由于偏见和方差实际上是预测变量本身的功能,因此您可能在预测变量空间的一部分中具有较大的偏见,而在另一部分中则具有较小的偏见(与方差相同)。YY^多次(其中和并非基于估计),并将其偏差(平均值)和方差绘制为值的函数。但是,我认为这是一个非常专业的问题。Y^=Xβ^β^ YX

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.