最适合有错误数据的线性回归模型


9

我正在寻找最适合其自变量(x)具有恒定测量误差而因变量(y)具有信号相关误差的数据的线性回归算法。

在此处输入图片说明

上图说明了我的问题。


1
如果常数变量x具有恒定的测量误差,并且该误差仅用于相对地加权变量,那么这种情况是否等同于x中没有误差?
pedrofigueira 2014年

2
@pedro并非如此,因为中的错误 X不仅仅是公式中的权重。使用变量误差回归时,拟合将不同,并且参数的协方差估计将与普通回归不同。
ub

1
谢谢你的澄清。您能解释一下为什么会这样吗?
pedrofigueira 2014年

Answers:


2

因变量中的测量误差

给定一般线性模型

(1)ÿ=β0+β1个X1个++βķXķ+ε
ε 同调,不自相关且与自变量不相关,让 ÿ 表示“ true”变量,并且 ÿ其可观察的措施。测量误差定义为它们的差
Ë=ÿ-ÿ
因此,可估计模型为:
(2)ÿ=β0+β1个X1个++βķXķ+Ë+ε
以来 ÿX1个Xķ观察,我们可以通过OLS估计模型。如果测量误差在ÿ 在统计上独立于每个解释变量,则 Ë+ε 与...具有相同的属性 ε 和通常的OLS推理程序(Ť统计信息等)有效。但是,在您的情况下,我希望方差会增加Ë。您可以使用:
  • 加权最小二乘估计器(例如Kutner等人,第11.1节;Verbeek,第4.3.1-3节);

  • OLS估计器,它仍然是无偏且一致的,并且异方差性一致的标准误差,或者仅仅是怀特标准误差(Verbeek,第4.3.4节)。

自变量中的测量误差

给定与上述相同的线性模型,让 Xķ 表示“真实”值,并且 Xķ其可观察的措施。现在的测量误差为:

Ëķ=Xķ-Xķ
有两种主要情况(Wooldridge,第4.4.2节)。
  • 冠状病毒XķËķ=0:测量误差与观察到的测量值无关,因此必须与未观察到的变量相关联 Xķ; 写作Xķ=Xķ-Ëķ 并将其插入(1):

    ÿ=β0+β1个X1个++βķXķ+ε-βķËķ
    以来 εË 两者互不相关 XĴ, 包含 Xķ,测量只会增加误差方差,并且不会违反任何OLS假设;
  • 冠状病毒Xķηķ=0:测量误差与未观察到的变量无关,因此必须与观察到的测量值相关 Xķ; 这种相关性会导致问题和OLS回归ÿX1个Xķ 通常会给出有偏差且不一致的估计量。

据我观察您的情节(误差集中在自变量的“真”值上)所推测,第一种情况可能适用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.