我正在尝试找出如何对线性回归执行一些假设检验(零假设没有相关性)。我遇到的每个指南和关于该主题的页面似乎都在使用t检验。但是我不明白线性回归的t检验实际上意味着什么。除非我有完全错误的理解或心理模型,否则将使用t检验比较两个人群。但是,回归变量和回归变量不是相似总体的样本,甚至可能不是同一单位,因此比较它们是没有意义的。
那么,在线性回归上使用t检验时,我们实际上在做什么呢?
我正在尝试找出如何对线性回归执行一些假设检验(零假设没有相关性)。我遇到的每个指南和关于该主题的页面似乎都在使用t检验。但是我不明白线性回归的t检验实际上意味着什么。除非我有完全错误的理解或心理模型,否则将使用t检验比较两个人群。但是,回归变量和回归变量不是相似总体的样本,甚至可能不是同一单位,因此比较它们是没有意义的。
那么,在线性回归上使用t检验时,我们实际上在做什么呢?
Answers:
您可能会想到两个样本检验,因为通常这是分布出现的第一位。但是,实际上检验的全部意思是检验统计量的参考分布是分布。如果和具有和独立,则 根据定义。我写这个是为了强调分布只是这个比率的分布的名称,因为它涉及很多,任何这种形式的都会有
通过线性回归,我们基本上得到了相同的结果。向量形式为。令并假设预测变量是非随机的。如果我们知道我们将 在空下有 所以我们实际上进行Z检验。但是一旦我们估计了我们最终得到了一个随机变量,在我们的正态性假设下,该变量却独立于统计,然后得到分布。 β Ĵ-0
详细说明如下:假设。令为帽子矩阵,我们有 是幂等的,因此我们得到的结果非常好,即 具有非中心性参数,所以实际上这是一个中心具有自由度(这是Cochran的特例定理)。我用表示的列数,所以如果一列
其结果是,因此可以作为的估计器。σ 2:= 1σ2
这意味着 是标准高斯对卡方的比率除以其自由度。为此,我们需要显示独立性,我们可以使用以下结果:
结果:对于和矩阵和在和分别和是独立的当且仅当(这是《邵君数学统计》第1章练习58(b))。甲乙ř 升× ķ ř 米× ķ甲ž 乙Ž 甲Σ 乙Ť = 0
我们有和其中。这意味着 所以,因此。Ë=(我-ħ)ýÝ〜Ñ(Xβ,σ2我)(XŤX)-1XŤ⋅σ2我⋅(我-ħ)Ť=σ2((XŤX) β ⊥Ë β ⊥ëŤë
结果是我们现在知道 根据需要(在上述所有假设下)。
这是该结果的证明。令是通过在上堆叠形成的矩阵。然后 其中 是一个多元高斯函数,并且众所周知,多元高斯函数的两个分量在且仅当它们不相关时是独立的,因此条件恰好等于该分量(l+m)×kABCZ=( AZ
@Chaconne的答案很好。但这是一个简短得多的非数学版本!
由于目标是计算P值,因此您首先需要定义一个零假设。几乎总是斜率实际上是水平的,因此斜率(beta)的数值为0.0。
您数据的斜率拟合度不是0.0。该差异是由于随机机会还是由于原假设不正确?您永远无法确定答案,但是P值是获得答案的一种方式。
回归程序报告斜率的标准误差。将t比率计算为斜率除以其标准误差。实际上,它是(斜率减去零假设斜率)除以标准误差,但零假设斜率几乎始终为零。
现在,您可以按比例使用。自由度(df)的数量等于数据点的数量减去通过回归拟合的参数的数量(线性回归为2)。
使用这些值(t和df),您可以使用在线计算器或表格确定P值。
它本质上是一次样本t检验,将观察到的计算值(斜率)与假设值(无效假设)进行比较。