回归中p值的含义


27

当我在某些软件包(例如Mathematica)中执行线性回归时,我得到与模型中各个参数关联的p值。例如,产生结果的线性回归的结果将具有与a关联的p值,以及与b关联的p值。ax+bab

  1. 这些p值对这些参数分别意味着什么?

  2. 有没有一种通用方法可以为任何回归模型计算参数?

  3. 是否可以将与每个参数关联的p值组合为整个模型的p值?

为了使这个问题本质上保持数学性质,我仅在概率方面寻求对p值的解释。


加文在@cardinal链接到的问题中的回答说得很好。
JM不是统计学家

6
@zyx,关于OP的问题没有任何高级内容。在我看来,这些是非常常见的问题,在我看来,stats.SE更适合-并且也更适合参与者。Math.SE和MO都是解决概率问题的极佳资源,而对于统计问题则少得多。OP的问题更倾向于后者。
主教

@cardinal:自公开测试版开始以来,我一直关注stats.SE。出于4800+问题至今我没能找到一个询问或从OP,这是奇怪的,如果这是一个“非常普遍”的查询答案3项。在项目1出现的几次上,我也没有看到概念上确切的答案。我认为这些内容应该定期发布到math.SE和MO上,以吸引更多受众的注意力,而不是在几分钟之内迁移到stats.SE。询问stat.SE 没有什么害处,但是将后者变成可以讨论统计数据的唯一场所没有帮助。
zyx

现在在meta.math.SE中有一个关于math.SE到stats.SE迁移的线程。
zyx

(上面提到的某些注释在迁移中丢失了。它们在原始math.SE发布中可见,链接在下面的单词“从...迁移”旁边)
zyx

Answers:


13
  1. 用于p值是在假设“的检验的p值α = 0 ”(通常是一个2面 -test)。用于p值b是在假设“的检验的p值β = 0 ”(也通常是双面 -test)且同样在回归任何其他系数。这些检验的概率模型由线性回归模型中假定的模型确定。对于最小二乘线性回归,该对(a b)遵循以真实参数值(α为中心的二元正态分布aα=0tbβ=0ta,bα,β),针对每个系数的假设检验等效于检验- 基于适当的正态分布(一个变量,即ab的单独分布)的样本,检验α = 0(分别为β = 0)。其中正态分布出现有些复杂,并且涉及“自由度”和“帽子矩阵”的细节(基于符号一些经常出现在OLS回归的理论的矩阵)。tα=0β=0abA^

  2. 是。通常通过最大似然估计来完成(并定义)。对于OLS线性回归和少量其他模型,有一些精确的公式可以根据数据估算参数。对于更一般的回归,解决方案本质上是迭代的和数值的。

  3. 不直接。p值是为整个模型的检验而单独计算的,也就是说,对于假设所有变量(假设变量实际上都在变化,因此不包括“常数项”的系数)的假设的检验,一)。但是,通常不能从系数的p值的知识中计算出该p值。


2
就您的观点(1.)而言,参数估计量之间似乎有些混淆。的 -值与估计,而不是参数相关联,并且估计是二元正态,而不是参数(其中,至少,在古典统计认为是固定的)。此外,您在第(3.)点中的评论可能会导致混淆,因为回归估计的某些单个p值完全有可能(并且非常普遍)大于或小于相应估计值的联合p值。F检验 pppF
主教

@NRH:对不起,您能否澄清您先前的评论。我还不太了解。:)
主教

@cardinal:说p值与假设检验相关联似乎更准确。参数出现在测试的原假设中,然后该对(估计值的观察值,替代假设)确定p值。应该使用参数来描述零假设,例如α= 0,而不是现在编辑的原始答案中[粗心地]做过的估算器a = 0(感谢指出错误)。但是,答案中明确指出了所谓的混淆或缺失的区别:“估计量是双变量正态的,而不是参数”。
zyx

1
抱歉,我无法抗拒。@zyx对原始的有关math.SE的帖子发表了评论,该帖子对stat.SE的回答通常不准确。我发现,尽管有时数学不精确,但许多答案还是很准确的。那是事物的本质。统计问题和答案不能总是简化为精确的数学陈述。特别是不是困难的。但是我认为这里提供的答案既不是特别准确也不是精确的。
NRH

3
我认为,如果有人投票支持,请提供解释性的评论。
主教

1

关于您的第一个问题:这取决于您选择的软件。在这些情况下,确实有两种类型的p值经常使用,它们通常都是基于似然比检验(虽然还有其他方法,但这些结果通常是相同的或至少相差很小)。

重要的是要意识到所有这些p值都以其余参数(的一部分为条件)为条件。这意味着:假设(某些)其他参数估计正确,您将测试参数的系数是否为零。通常,这些检验的零假设是系数为零,因此,如果您的p值较小,则意味着(有条件地根据其他系数的值)系数本身不太可能为零。

I型测试根据模型中从左到右的系数值有条件地测试每个系数的零度。III型测试(边际测试),以所有其他系数的值为条件,测试每个系数的零度。

尽管通常您可以同时获得两种方法,但不同的工具会默认使用不同的p值。如果您没有统计之外的理由可以按一定顺序包含参数,则通常会对III型测试结果感兴趣。

最后(与您的最后一个问题更多相关),使用似然比检验,您始终可以针对以其余条件为条件的任何系数集创建检验。如果要同时测试多个系数为零的情况,这是一种方法(否则您会遇到一些令人讨厌的多重测试问题)。


Could you please elaborate on the conditionality you mentioned? In the univariate regression with p predictors and an intercept, testing a hypothesis on a linear combination of parameters ψ=cβ uses test statistic t=ψ^ψ0σ^c(XX)1c...
caracal

Here ψ^=cβ^, with β^ being the vector of parameter estimates, and c a vector of coefficients. X is the design matrix, and σ^ is the residual standard error ||e||2/(n(p+1)), where e is the vector of residuals from the supplied model. For the test of a single parameter j being 0, c is the j-th unit vector, and ψ0=0. I don't see where model comparisons play a roll for t.
caracal

The essence of the matter is captured for example here. Remember that anova is just a special case of regression. Basically, it comes down to this: if you do a test for zeroness of (the coefficient of) variable A in a model with or without variable B, you may get different results. Hence, the result is conditional on your model, the data (even for the values of variable B) and thus on the coefficients not in your test but in your model. Finding that idea in the maths may be somewhat harder :-)
Nick Sabbe

True, but the anova hypotheses test whether all p1 effect parameters corresponding to the p groups of a factor are simultaneously 0. This hypothesis is different from the one about cβ (here a single parameter βj), and also uses a different test statistic: F=(SSerSSeu)/(dferdfeu)SSeu/dfeu where SSer and dfer are the residual sum of squares ||er||2 and their df for the restricted model, likewise u for the unrestricted model. Obviously, this indeed depends on the choice for the restricted and unrestricted models.
caracal

The continuous case should be completely equivalent to a dichotomous 0-1 encoded variable.
Nick Sabbe
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.