我想将数据点分类为需要更复杂的模型,或者不需要更复杂的模型。我目前的想法是将所有数据拟合为简单的线性模型,并观察残差的大小以进行此分类。然后,我读了一些关于误差的偏差和方差贡献的信息,并意识到,如果我可以直接计算偏差,那么使用总误差(残差或标准残差)可能是更好的方法。
是否可以使用线性模型直接估算偏差?有无测试数据?交叉验证是否对您有帮助?
如果不是,是否可以使用线性模型的平均自举合奏(我认为它称为装袋)来近似偏差?
我想将数据点分类为需要更复杂的模型,或者不需要更复杂的模型。我目前的想法是将所有数据拟合为简单的线性模型,并观察残差的大小以进行此分类。然后,我读了一些关于误差的偏差和方差贡献的信息,并意识到,如果我可以直接计算偏差,那么使用总误差(残差或标准残差)可能是更好的方法。
是否可以使用线性模型直接估算偏差?有无测试数据?交叉验证是否对您有帮助?
如果不是,是否可以使用线性模型的平均自举合奏(我认为它称为装袋)来近似偏差?
Answers:
可以估算分解的一种情况是,如果您有重复的点(即,对预测变量的各种组合具有多个响应)。
这主要限于您可以控制自变量的情况(例如在实验中)或它们都是离散的(当x组合不太多且您可以获取足够大的样本以进行x值组合时)获得多个积分)。
复制的点为您提供了一种无模型的估算条件均值的方法。在这种情况下,可能会把残差平方和分解为纯误差和不拟合,但您也可以对x值的每种组合都具有直接的(尽管一定是嘈杂的)偏差估计,对此您会有多个响应。
在稍微复杂一些的卡尔曼滤波领域中,有时人们测试残差(观察到的测量值减去预测的测量值)以寻找模型变化或故障情况。从理论上讲,如果模型是完美的,并且噪声是高斯噪声,则残差也应该是均值为零的高斯噪声,并且还应与预测的协方差矩阵一致。人们可以通过诸如顺序概率比测试(SPRT)之类的顺序测试来检验非零均值。您的情况有所不同,因为您拥有一批固定的数据,而不是稳定的新数据流。但是,查看残差样本分布的基本思想可能仍然适用。
您指出您正在建模的过程可能会偶尔更改。然后,要对所拥有的数据进行更多处理,您可能需要确定导致该变化的其他因素。考虑两种可能性:(1)可能需要局部模型而不是一个全局模型,例如,因为仅在某些操作区域中存在严重的非线性,或者(2)可能是过程随时间而变化。
如果这是一个物理系统,并且您的样本没有间隔很长时间,那么这些过程更改可能会在相当长的一段时间内持续存在。也就是说,真实的模型参数可能会偶尔更改,并持续一段时间。如果您的数据带有时间戳,您可能会查看一段时间后的残差。例如,假设您使用所有数据拟合y = Ax + b,找到A和b。然后返回并测试残差序列r [k] = y [k]-Ax [k]-b,其中k是与按顺序排列的时间相对应的索引。寻找一段时间内的模式,例如,|| r [k] ||之类的摘要统计信息 保持高于正常水平一段时间。顺序测试对于检测持续的偏差类型的错误(例如对于单个矢量索引的SPRT甚至CUSUM之类的错误)最敏感。
答案是否定的,因为偏差和方差是模型参数的属性,而不是模型参数的属性。该陈述有一个部分例外,它涉及在预测变量空间中的偏差和方差变化(ha!)。下面的更多内容。注意,这与知道一些与预测变量和响应变量有关的“真实”函数完全无关。
考虑线性回归中的估计,其中是预测变量的矩阵,是参数估计的向量,和是一个的矢量响应。出于辩论的原因,让我们假设有无数的数据可供提取(顺便说一句,这并不是完全荒谬的-如果我们正在积极地记录某些物理过程中的数据,则可以快速记录预测值和响应数据,因此实际上满足了这一假设)。因此,我们绘制了观测值,每个观测值都包含一个响应值和每个观测值的值XÑ×P β P×1ŸÑ×1ñP β Ñ我吨ËřÑÑ我吨Ëř β ÑP预测变量。然后,我们计算的估计值并记录值。然后让我们进行整个过程,并重复次,每次从总体中抽取独立抽签。我们将累积估计,通过该估计,我们可以计算出参数向量中每个元素的方差。注意,假设预测变量的正交性,这些参数估计的方差与成反比,与成正比。
可以类似地估计每个参数的偏差。尽管我们可能无法使用“ true”函数,但让我们假设可以从总体中任意抽取大量笔数来计算,它将用作“ true”参数值的代理。我们将假定这是一个无偏估计(通常是最小二乘),并且所使用的观察数足够大,因此该估计的方差可以忽略不计。对于每个参数,我们计算,其中范围是到。我们将这些差异的平均值作为对相应参数偏差的估计。P β bË小号吨Ĵ - β ĴĴ1ñ我吨Ëř
有将偏差和方差与数据本身相关联的相应方法,但它们稍微复杂一些。如您所见,可以为线性模型估计偏差和方差,但是您将需要大量保留数据。一个更隐蔽的问题是,一旦您开始使用固定的数据集,您的分析将被您的个人差异所污染,因为您已经开始在分叉路径的花园中徘徊,并且无法知道会复制样本外的内容(除非您只是想出一个模型并进行分析,然后再承诺不做任何处理)。
关于数据点本身的问题,最正确(也是微不足道的)答案是,如果与之间存在差异,Ÿ Ÿ - Ÿ Ÿ = X β β ÿ X,则需要一个更复杂的模型(假设您可以正确识别所有相关的预测变量;不能)。在没有对“错误”的哲学本质进行无聊的论述的情况下,最重要的是,正在发生的某件事导致您的模型错过了它的标记。问题在于,增加复杂性会增加方差,这很可能导致其错过其他数据点上的标记。因此,担心单个数据点级别的错误归因不太可能是富有成果的。例外(在第一段中提到)是由于偏见和方差实际上是预测变量本身的功能,因此您可能在预测变量空间的一部分中具有较大的偏见,而在另一部分中则具有较小的偏见(与方差相同)。多次(其中和并非基于估计),并将其偏差(平均值)和方差绘制为值的函数。但是,我认为这是一个非常专业的问题。