在这里,我如履薄冰,但请尝试:我有一种感觉(请发表评论!),统计学与计量经济学之间的主要区别在于,在统计学中,我们倾向于将回归变量视为固定的,因此,术语设计矩阵显然来自实验设计,这里的假设是我们首先选择然后确定解释变量。
但是对于大多数数据集,大多数情况而言,这是不合适的。我们实际上正在观察解释变量,从这个意义上说,它们与响应变量处于同一地位,它们都是由我们控制范围之外的随机过程确定的。通过将视为“固定”,我们决定不考虑可能引起的很多问题。 x
另一方面,通过将回归变量视为随机变量,正如计量经济学家倾向于这样做的那样,我们打开了尝试考虑此类问题的建模可能性。然后,我们可能考虑并纳入建模的问题的简短列表是:
- 回归器中的测量误差
- 回归变量与误差项之间的相关性
- 滞后响应为回归
- ...
大概应该比今天更频繁地执行此操作?
EDIT
我将尝试更加正式地充实以回归器为条件的论点。设是一个随机向量,而兴趣是回归在,这里的回归被认为是指的条件期望在。在多标准假设下,这将是一个线性函数,但我们的论据并不依赖于此。我们以通常的方式将关节密度分解为因子
但这些函数未知,因此我们使用参数化模型
其中参数化条件分布,而(Y,X)YXYXf(y,x)=f(y∣x)f(x)
f(y,x;θ,ψ)=fθ(y∣x)fψ(x)
θψ的边际分布。在正常的线性模型中,我们可以具有但这不是假定的。的完整参数空间为(笛卡尔积),并且这两个参数没有共同之处。Xθ=(β,σ2)(θ,ψ)Θ×Ψ
这可以解释为统计实验的分解,(或数据生成处理中,DGP的),第一根据产生,和作为第二步骤,根据条件密度产生。请注意,第一步不会使用仅在第二步中输入的有关任何知识。统计信息是辅助信息,请参见https://en.wikipedia.org/wiki/Ancillary_statistic。Xfψ(x)Yfθ(y∣X=x)θXθ
但是,根据第一步的结果,第二步或多或少可以提供有关信息。如果给出的分布具有非常低的方差,例如,观察到的将集中在一个很小的区域中,那么将更难于估计。因此,此两步实验的第一部分确定了可以估算的精度。因此,在回归参数推断中以为条件是很自然的。这是条件论证,上面的概述明确了它的假设。θfψ(x)xθθX=x
在设计的实验中,通常会保留其假设,而观察数据往往不成立。问题的一些示例将是:以滞后响应作为预测因子的回归。在这种情况下,对预测变量的条件也将取决于响应!(我将添加更多示例)。
一本详细讨论此问题的书是《信息和指数族:信息论: O。E Barndorff-Nielsen的统计理论》。尤其见第4章。笔者认为在这种情况下,分离逻辑然而很少阐明,但给出了以下参考:RA费舍尔(1956)的统计方法和科学推理 和斯维德鲁普(1966)的决策理论的现状和Neyman-Pearson理论。§4.3