当我们计算回归系数的标准误差时,我们没有考虑设计矩阵的随机性。例如,在OLS中,我们将为
如果将视为随机数,则总方差定律在某种意义上也将要求的方差也有其他贡献。即
如果OLS估计量确实是无偏的,则第一项就消失了,因为期望是一个常数。第二项实际上变为:。
如果已知的参数模型,为什么不用实际的协方差估计替换。例如,如果是随机治疗分配,则二项式方差应该是更有效的估计?
我们为什么不考虑使用灵活的非参数模型来估计OLS估计中可能的偏差来源,并适当考虑第一个总定律方差项设计敏感性(即的分布)”吗?
当我们计算回归系数的标准误差时,我们没有考虑设计矩阵的随机性。例如,在OLS中,我们将为
如果将视为随机数,则总方差定律在某种意义上也将要求的方差也有其他贡献。即
如果OLS估计量确实是无偏的,则第一项就消失了,因为期望是一个常数。第二项实际上变为:。
如果已知的参数模型,为什么不用实际的协方差估计替换。例如,如果是随机治疗分配,则二项式方差应该是更有效的估计?
我们为什么不考虑使用灵活的非参数模型来估计OLS估计中可能的偏差来源,并适当考虑第一个总定律方差项设计敏感性(即的分布)”吗?
Answers:
在我们进行一项随机对照试验的情况下,您的问题(加上评论中的其他评论)似乎最感兴趣,在该试验中,研究人员根据某种随机设计随机分配了一个或多个解释变量。在这种情况下,您想知道为什么我们使用一个模型将解释变量视为已知常数,而不是将其视为随机化所产生的抽样分布中的随机变量。(您的问题比这更广泛,但是这似乎是评论中的头等大事,所以我将要解决这个问题。)
在这种情况下,我们以解释变量为条件的原因是,在RCT的回归问题中,我们仍然对给定预测变量的响应变量的条件分布感兴趣。确实,在RCT中,我们有兴趣确定解释变量X对响应变量Y的因果关系,我们将通过对条件分布的推断来确定因果关系(要遵循一些防止混淆的协议)。进行随机化是为了打破解释变量X与任何可能造成混淆的变量之间的依赖关系(即,防止后门关联)。† 但是,问题的推论对象仍然是给定解释变量的响应变量的条件分布。因此,使用具有推断条件分布的良好特性的估算方法来估算此条件分布中的参数仍然有意义。
这是使用回归技术申请RCT的正常情况。当然,在某些情况下,我们还有其他利益,我们可能确实希望合并有关解释变量的不确定性。通常在两种情况下将不确定性纳入解释变量中:
(1)当我们超越回归分析而进入多元分析时,我们感兴趣的是解释变量和响应变量的联合分布,而不仅仅是前者给定的条件分布。可能有一些我们感兴趣的应用程序,因此我们将不仅仅进行回归分析,而将有关解释变量分布的信息纳入其中。
(2)在某些回归应用中,我们感兴趣的是响应变量的条件分布,该条件变量以潜在的未观察到的解释变量为条件,其中我们假定观察到的解释变量易受误差(“误差误差”)的影响。在这种情况下,我们通过“变量误差”引入不确定性。原因是我们在这些情况下的兴趣在于条件分布,条件条件是未观察到的基础变量。
请注意,这两种情况在数学上都比回归分析更为复杂,因此,如果我们能够摆脱使用回归分析的情况,那通常是更好的选择。无论如何,在大多数回归分析应用中,目标是在给定可观察的解释变量的情况下,对响应的条件分布进行推断,因此这些归纳变得不必要。
请注意,随机化将混杂变量到随机变量的因果关系分离开来,但并没有切断随机变量到混杂变量然后对响应的因果关系。这意味着在因果分析中可能需要其他协议(例如,安慰剂,致盲等)来完全切断所有后门关联。
标题“变量中的错误”和问题的内容似乎有所不同,因为它询问为什么在对条件响应进行建模时,我们不考虑的变化,即推断回归参数。这两个问题似乎与我正交,因此我在这里回应内容。
之前我已经回答过类似的问题,对回归变量进行条件处理与将其视为固定条件有什么区别?,因此我将在此处复制部分答案:
我将尝试更正式地充实以回归器为条件的论点。让是一个随机向量,而兴趣是回归在,这里的回归被认为是指的条件期望在。在多重标准假设下,这将是一个线性函数,但我们的论据并不依赖于此。我们以通常的方式将接头密度分解为因子
这可以解释为统计实验的分解,(或数据生成处理中,DGP的),第一根据产生,和作为第二步骤,根据条件密度产生。请注意,第一步不使用任何有关知识,而仅在第二步中输入。统计量是辅助值,请参见https://en.wikipedia.org/wiki/Ancillary_statistic。
但是,根据第一步的结果,第二步或多或少可以提供有关信息。如果由下式给出的分布具有非常低的方差,比方说,所观察到的的将集中在一个小区域,所以这将是较难估计。因此,此两步实验的第一部分确定了可以估算的精度。因此,在回归参数的推论中,以为条件是很自然的。这是条件论证,上面的概述明确了它的假设。
在设计的实验中,通常会保留其假设,而观察数据通常不会成立。问题的一些示例将是:以滞后响应作为预测因子的回归。在这种情况下,以预测变量为条件也将以响应为条件!(我将添加更多示例)。
一本详细讨论该问题的书是《信息和指数族:信息统计理论》,作者: O。E Barndorff-Nielsen。尤其见第4章。笔者认为在这种情况下,分离逻辑然而很少阐明,但给出了以下参考:RA费舍尔(1956)的统计方法和科学推理 和斯维德鲁普(1966)的决策理论和的现状内曼-皮尔逊理论。
这里使用的因式分解在本质上与足够统计量的因式分解定理有些相似。如果重点是回归参数和分布不依赖于,那么怎么可能(或变化)的分布包含有关信息?
此分离参数也很有用,因为它指出了无法使用它的情况,例如以滞后响应作为预测变量的回归。