设计矩阵中“设计”的含义?


13

在线性回归中,,为什么被称为设计矩阵?可以X被设计或构造任意一定程度,如本领域?XY=XβXX


3
这个术语的起源很古老,我相信可以追溯到实验分析中推论统计的起源。特别是,我认为它是指X矩阵与实际实验设计(x值的特定设置x)相关的方式。如果我可以找到具体的参考文献,我将发布答案。
Glen_b-恢复莫妮卡

@Glen_b:谢谢!“设计”是否与选择输入变量上的转换有关,以便输出变量在转换后的输入变量中也呈线性关系?例如,多项式回归中的设计矩阵?
Tim

2
设计实验时,请指定X的值X
whuber

Answers:


15

为了给出与@neverKnowsBest的响应一致的示例,请考虑在阶乘实验中有3个因子,每个因子被视为具有2个水平的分类变量,并且在每次复制中测试了因子水平的每种可能组合。如果实验仅进行一次(无重复),则此设计将需要次运行。运行可以通过以下8x3矩阵来描述: 其中,行表示运行,列表示级别因素: 2 3 = 8 [ 0 0 0 1 0 0 0 1 0 1 1 0 0 0 0 1 1 0 1 0 1 1 1 1 1 ] [ A B C ]2323=8

[000100010110001101011111]
[ABC].
(第一列代表因子A的水平,第二列B和第三列C)。之所以称为设计矩阵,是因为它描述了实验的设计。第一次运行是在所有因子的“低”水平收集的,第二次运行是在因子A的“高”水平和因子B和C的“低”水平收集的,依此类推。

AB&AC&BC&ABC \\ \ end {array} \ right]。 尽管这两个矩阵相关,但设计矩阵描述了如何收集数据,而模型矩阵则用于分析实验结果。[ I A B C A B A C B C A B C ]

[1000111011000011101001011110100010011001110101001011001011111111]
[IABCABACBCABC].

引文

蒙哥马利(2009)。实验设计与分析,第7版。约翰·威利父子公司


9

在设计的实验中,我们经常大惊小怪的是,设计矩阵 包含执行实验的因素的水平以及模型矩阵(也写为但实际上是设计矩阵的函数)包含诸如全1的列(代表截距项)之类的东西,以及设计矩阵各列的乘积和幂(代表诸如交互作用和多项式模型项之类的事物)。我将在模型矩阵中称为。X X Ŷ = X βXXXy=Xβ

实验设计着重于如何构造设计矩阵和模型矩阵,因为它们发生在收集数据之前。如果已经收集了数据,则将设计固定下来,但是您仍然可以更改模型矩阵。有时,设计好的实验会在设计矩阵中包含某些固定列,称为协变量,这些列无法控制,但您可以观察到。

根据您对模型和设计的选择,可能会发生某些事情……某些参数可能难以估算(估算器的方差较大),或者您可能根本无法估算某些参数。我会说,确定合适的模型具有一些艺术元素,而设计实验肯定是一门艺术。


2
这非常有帮助,但这是“协变量”的脚注。有些人用这个词很多更广泛地用于任何类型的预测或独立变量。(自然会存在许多其他同义词。)
Nick Cox

(+1)非常感谢您的第一篇贡献-欢迎来到我们的网站!
whuber

2

之所以称为设计矩阵,是因为矩阵的列基于模型的设计。我不认为就可以从某种意义上任意创建,因为一旦确定了模型,设计矩阵就已经确定了(基本上上每个您要估计的都有一列)。但是,由于可以将模型构建视为一门艺术,因此我认为可以构建设计矩阵。X X βXXXβ


2

X只是您的数据(减去响应变量)。我相信它被称为设计矩阵,因为它定义了模型的“设计”(通过培训)。

X是否可以像艺术中那样任意设计或构造?

基本上,这个问题可以归结为“您是否可以建立在制造数据上训练的模型”,答案显然是肯定的。例如,这是一种构造任意设计矩阵(实际上是设计矢量)的方法,该模型将为模型提供预定义的斜率并进行截距:

design_mat=function(b, a){
  X = runif(100)
  Y = a*X + b
  data.frame(X,Y)
}

df = design_mat(-5, 12.3)

(lm(Y~X, data=df))

Call:
lm(formula = Y ~ X, data = df)

Coefficients:
(Intercept)            X  
       -5.0         12.3  

在我的示例中,出于说明目的,我“构建”了来自随机设计数据的响应,但是您可以很容易地使用从随机响应中构建设计矩阵。X=Yba

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.