回归中R平方和p值之间的关系是什么?


17

tl; dr-对于OLS回归,较高的R平方是否还意味着较高的P值?专门针对单个解释变量(Y = a + bX + e),但也有兴趣了解n个多个解释变量(Y = a + b1X + ... bnX + e)。

上下文-我正在对一系列变量执行OLS回归,并试图通过生成一个表格来开发最佳的解释函数形式,该表格包含线性,对数等之间的R平方值,每个解释(独立)变量的变换以及响应(因变量)。看起来有点像:

变量名-线性形式---ln(变量)--exp(变量)-...等

变量1 ------- R平方---- R平方---- R平方
-...等等...

我想知道R平方是否合适,或者P值是否更好。大概存在某种关系,因为更重要的关系意味着更高的解释力,但不确定是否严格地做到这一点。


5
还需要注意的R ^ 2有用还是危险?
ub

Answers:


15

答案是否定的,之间不存在这样的规律的关联性和整体回归p值,因为- [R 2如在很大程度上取决于因为它在残差的方差(其所成反比独立变量的方差比例),您可以随意更改自变量的方差。R2R2

例如,考虑对任何i索引个案的多元数据集,并假定第一个自变量{ x 1 },具有独特的最大X *由正量从所述第二高值隔开ε。对第一个变量进行非线性变换,使所有值小于((xi1,xi2,,xip,yi))i{xi1}xϵ到范围 [ 0 1 ]和发送 X *本身的一些较大的值中号» 1。例如,对于任何这样的 M,都可以通过适当的(按比例缩放)Box-Cox变换 x a x - x 0 λ - 1 /λ - 1 来完成,因此我们在这里不讨论任何奇怪或“病态的”。然后,作为 Mxϵ/2[0,1]xM1Mxa((xx0)λ1)/(λ1))M不管拟合有多差,任意增大,R 2尽可能接近1,因为残差的方差将有界,而第一个自变量的方差与M 2渐近成比例。R21M2


您应该改用拟合优度检验(除其他方法外)在您的勘探中选择一个合适的模型:您应该关注拟合的线性和残差的同方线性。并且不要从信任度的回归结果中获取任何p值:在您完成本练习后,它们将几乎变得毫无意义,因为它们的解释假定表示自变量的选择不取决于变量的值。因变量,根本不是这种情况。


10

这个答案并不直接涉及核心问题。它不过是一些其他信息而已,导致评论时间太长。

我指出这一点是因为econometricstatsquestion无疑会在某个时候遇到此信息或类似的信息(说明R 2相关的),并且想知道此处其他答案中给出的信息是否错误-没错-但我认为弄清楚发生了什么是值得的。FR2

在特定情况下存在关系;如果您拥有给定模型的观测数和固定的预测变量数,则实际上在R 2中是单调的,因为FR2

F=R2/(k1)(1R2)/(Nk)

(如果通过划分分子和分母,和拉在常量ķ出来,就可以看到,1 / ˚F α 1 / [R 2 - 1,如果你持有Ñķ。常数)R2k1/F1/R21Nk

由于对于固定的df,和p值单调相关,因此R 2p值也单调相关。FR2p

但是,几乎更改了有关模型的所有内容,并且这种关系在更改后的环境中不成立。

例如,添加的点品牌更大和除去一个使得小,但这样做既可以增加或减少- [R 2,所以它看起来像˚F- [R 2必然一起移动,如果您添加或删除数据。添加变量会减少N - k /k - 1 但会增加R 2(反之亦然),因此,R 2也不一定与(Nk)/(k1)R2FR2 (Nk)/(k1)R2R2当你这样做。F

显然,一旦你比较p -值跨越车型具有不同特点,这种关系不一定成立,如whuber非线性变换的情况下证明。R2p


我不同意您的意见,但看来您在回答的问题与我不同。阅读了一些文章,但我得出的结论是,问题是,当(caeteris paribus)自变量进行非线性变换时R 2之间保持什么关系(如果有)。 只有当这些变量保持不变(或者最多只能在它们之间线性转换)时,我们才能对这种关系说什么。这就是我认为必须理解“针对给定模型”的限定词的一部分。pR2
ub

我在回答另一个问题;并且我相信您对含义的解释是正确的。我更担心的是,如果我不提出解释,我提出的问题会导致混乱。据我了解,您的所有观点都成立。(现在,我实际上担心的是,也许我的答案并没有像我希望的那样澄清,而只是使问题感到困惑。您是否认为有适当的修改会有所帮助?我应该删除它吗?)
Glen_b-恢复莫妮卡

我不希望看到它被删除,格伦。如果您打算进行更改,请考虑更明确地指出您正在写此问题的哪些方面(例如,“给定模型”的确切含义以及对具有“不同特征”的模型的想法)。这就是我发表评论的精神(协作而不是批判)。
ub

我并没有受到您的批评-您似乎在澄清,仅此而已-但对它的需求突显了我在发表评论之前一直在关注的答案的不足。“不同特征”的含糊之处是因为这是一件很普通的事情-千差万别(我什至举了一些简单的例子,例如删除一个点或添加一个变量以说明一个人几乎不需要更改)就可以使这种单调关系蒸发。我会考虑再说些什么。
Glen_b-恢复莫妮卡

F

3

“对于OLS回归,较高的R平方是否也意味着较高的P值?特别是对于单个解释变量(Y = a + bX + e)”

R2FtR2ptR2 is:

|t|=R2(1R2)(n2)

So in this case, once you fix n, the higher the R2 the higher the t statistic and the lower the p-value.

"but would also be interested to know for n multiple explanatory variables (Y = a + b1X + ... bnX + e)."

The answer is the same, but instead of looking at one variable only, we now look at all variables together -- hence the F statistic, as Glen_b has shown. And here you have to fix both n and the number of parameters. Or, to put it better, fix the degrees of freedom.

Context - I'm performing OLS regression on a range of variables and am trying to develop the best explanatory functional form (...)

Ok, so this is actually a different problem. If you are looking at the best explanatory functional form, you should also take a look at cross-validation techniques. Even if R2 is the quantity of interest for your problem (it usually isn't), finding the best fit in-sample can be very misleading -- you usually want your findings to generalize out of sample, and proper cross-validation can help you not overfit your data too much.

And here I'm guessing that you want "predictive" power (since you say you want to find "the best explanatory functional form"). If you want to do causal inference, for instance, then the R2 or other predictive performance metrics are of little help without more structural/substantive knowledge of the problem.

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.