为什么“ X中的错误”模型没有得到更广泛的使用?


11

当我们计算回归系数的标准误差时,我们没有考虑设计矩阵的随机性。例如,在OLS中,我们将为X变种β^变种XŤX-1个XŤÿ=σ2XŤX-1个

如果将视为随机数,则总方差定律在某种意义上也将要求的方差也有其他贡献。即XX

变种β^=变种Ëβ^|X+Ë变种β^|X

如果OLS估计量确实是无偏的,则第一项就消失了,因为期望是一个常数。第二项实际上变为:。σ2冠状病毒X-1个

  1. 如果已知的参数模型,为什么不用实际的协方差估计替换。例如,如果是随机治疗分配,则二项式方差应该是更有效的估计?XXŤXXËX1个-ËX

  2. 我们为什么不考虑使用灵活的非参数模型来估计OLS估计中可能的偏差来源,并适当考虑第一个总定律方差项设计敏感性(即的分布)”吗?X变种Ëβ^|X


2
为什么数学定律“要求”什么?我们使用模型对数据进行推理以解决特定目标。当这些是理解或预测基于一个观察或测量值条件响应在变化会有多大(如果有的话),在所有与实质性问题做的-事实上,纳入我们的程序这种变化似乎完全是错误,误导甚至是荒谬的。因此,回答您的问题似乎取决于评估遇到各种统计问题的频率。XXX
ub

1
@whuber我的重点是推理。总方差定律似乎与研究结果的常识性解释更一致。我们经常谈论“如果研究被重复”……而没有考虑如果研究被重复则的分布可能不同的事实。一个样本中的性别平衡可能是40%,而另一个样本中是60%,这仅仅是由于该研究是如何获得的随机结果。具有讽刺意味的是,自举反映了这一点,但对于协变量的特定组合不会在结果上产生任何可变性。X
AdamO

2
首先,许多研究将置于实验控制之下,因此甚至不是随机的。其次,观察性研究(是随机的)通常只对推断的条件分布感兴趣。因此,专注于推断并不能将一种情况与另一种情况区分开。当对全(联合)分布感兴趣时,您会看到许多人诉诸相关分析形式或各种多元过程。没有所谓的“引导”,因为在这种情况下,如何重采样取决于目标和模型。X ÿ XXY
ub

1
@whuber实验控制在研究进入点随机分配的。正如我提到的,这是一个令人信服的案例:说随机是Bernoulli。为什么使用的经验估计?使用最大可能性: 吗?您对引导程序是正确的,我指的是非参数(无条件)引导程序,其中“行”的数据通过替换采样。cov X = E X 1 E X cov(X=XŤX冠状病毒X=ËX1个-ËX
AdamO '19

2
特别反常情况外,它并没有真正的问题,如果是随机的,重要的是是否存在测量误差在。如果是这样,OLS方法将导致偏倚和较低估计。在这种情况下,应使用变量方法中的错误。X 1 β 1X1个X1个β1个
gung-恢复莫妮卡

Answers:


8

在我们进行一项随机对照试验的情况下,您的问题(加上评论中的其他评论)似乎最感兴趣,在该试验中,研究人员根据某种随机设计随机分配了一个或多个解释变量。在这种情况下,您想知道为什么我们使用一个模型将解释变量视为已知常数,而不是将其视为随机化所产生的抽样分布中的随机变量。(您的问题比这更广泛,但是这似乎是评论中的头等大事,所以我将要解决这个问题。)

在这种情况下,我们以解释变量为条件的原因是,在RCT的回归问题中,我们仍然对给定预测变量的响应变量的条件分布感兴趣。确实,在RCT中,我们有兴趣确定解释变量X对响应变量Y因果关系,我们将通过对条件分布的推断来确定因果关系(要遵循一些防止混淆的协议)。进行随机化是为了打破解释变量X与任何可能造成混淆的变量之间的依赖关系(即,防止后门关联)。XYX 但是,问题的推论对象仍然是给定解释变量的响应变量的条件分布。因此,使用具有推断条件分布的良好特性的估算方法来估算此条件分布中的参数仍然有意义。

这是使用回归技术申请RCT的正常情况。当然,在某些情况下,我们还有其他利益,我们可能确实希望合并有关解释变量的不确定性。通常在两种情况下将不确定性纳入解释变量中:

  • (1)当我们超越回归分析而进入多元分析时,我们感兴趣的是解释变量和响应变量的联合分布,而不仅仅是前者给定的条件分布。可能有一些我们感兴趣的应用程序,因此我们将不仅仅进行回归分析,而将有关解释变量分布的信息纳入其中。

  • (2)在某些回归应用中,我们感兴趣的是响应变量的条件分布,该条件变量以潜在的未观察到的解释变量为条件,其中我们假定观察到的解释变量易受误差(“误差误差”)的影响。在这种情况下,我们通过“变量误差”引入不确定性。原因是我们在这些情况下的兴趣在于条件分布,条件条件是未观察到的基础变量

请注意,这两种情况在数学上都比回归分析更为复杂,因此,如果我们能够摆脱使用回归分析的情况,那通常是更好的选择。无论如何,在大多数回归分析应用中,目标是在给定可观察的解释变量的情况下,对响应的条件分布进行推断,因此这些归纳变得不必要。


请注意,随机化将混杂变量到随机变量的因果关系分离开来,但并没有切断随机变量到混杂变量然后对响应的因果关系。这意味着在因果分析中可能需要其他协议(例如,安慰剂,致盲等)来完全切断所有后门关联。


2
好答案。如果您有高斯变量误差和高斯响应误差而不是正常的回归方法,那么我要补充一下AFAIK,只有当您a)观察到的响应没有错误b)具有不同的响应分布时
这才成为问题莫德拉克

2

标题“变量中的错误”和问题的内容似乎有所不同,因为它询问为什么在对条件响应进行建模时,我们不考虑X的变化,即推断回归参数。这两个问题似乎与我正交,因此我在这里回应内容。

之前我已经回答过类似的问题,对回归变量进行条件处理与将其视为固定条件有什么区别?,因此我将在此处复制部分答案:

我将尝试更正式地充实以回归器为条件的论点。让ÿX是一个随机向量,而兴趣是回归ÿX,这里的回归被认为是指的条件期望ÿX。在多重标准假设下,这将是一个线性函数,但我们的论据并不依赖于此。我们以通常的方式将接头密度分解为因子

FÿX=FÿXFX
但这些功能是未知的,所以我们使用参数化模型
FÿX;θψ=FθÿXFψX
其中,θ参数化的条件分布和ψ的边缘分布X。在正常的线性模型中,我们可具有θ=βσ2,但是没有被假定。θ ψ的完整参数空间θψΘ×Ψ,笛卡儿积,并且这两个参数没有共同的部分。

这可以解释为统计实验的分解,(或数据生成处理中,DGP的),第一X根据产生FψX,和作为第二步骤,ÿ根据条件密度产生FθÿX=X。请注意,第一步不使用任何有关θ知识,而仅在第二步中输入。统计量Xθ辅助值,请参见https://en.wikipedia.org/wiki/Ancillary_statistic

但是,根据第一步的结果,第二步或多或少可以提供有关θ信息。如果由下式给出的分布FψX具有非常低的方差,比方说,所观察到的X的将集中在一个小区域,所以这将是较难估计θ。因此,此两步实验的第一部分确定了可以估算θ的精度。因此,在回归参数的推论中,以X=X为条件是很自然的。这是条件论证,上面的概述明确了它的假设。

在设计的实验中,通常会保留其假设,而观察数据通常不会成立。问题的一些示例将是:以滞后响应作为预测因子的回归。在这种情况下,以预测变量为条件也将以响应为条件!(我将添加更多示例)。

一本详细讨论该问题的书是《信息和指数族:信息统计理论》,作者 O。E Barndorff-Nielsen。尤其见第4章。笔者认为在这种情况下,分离逻辑然而很少阐明,但给出了以下参考:RA费舍尔(1956)的统计方法和科学推理 §4.3和斯维德鲁普(1966)的决策理论和的现状内曼-皮尔逊理论


这里使用的因式分解在本质上与足够统计量的因式分解定理有些相似。如果重点是回归参数θ和分布X不依赖于θ,那么怎么可能(或变化)的分布X包含有关信息θ

此分离参数也很有用,因为它指出了无法使用它的情况,例如以滞后响应作为预测变量的回归。


1
Xÿθψ

我不了解PLS,但会尝试考虑一下
kjetil b halvorsen

1
好答案!...
理查德·哈迪
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.