简单线性回归,p值和AIC


13

我知道这个话题在这里之前已经提出过很多次,但是我仍然不确定如何最好地解释我的回归输出。

我有一个非常简单的数据集,由一列x值和一列y值组成,并根据位置位置)分为两组。要点看起来像这样

在此处输入图片说明

一位同事假设,我们应该将单独的简单线性回归拟合到每个组,我已经使用进行了拟合y ~ x * C(loc)。输出如下所示。

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.873
Model:                            OLS   Adj. R-squared:                  0.866
Method:                 Least Squares   F-statistic:                     139.2
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           3.05e-27
Time:                        14:18:50   Log-Likelihood:                -27.981
No. Observations:                  65   AIC:                             63.96
Df Residuals:                      61   BIC:                             72.66
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          t      P>|t|      [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept         3.8000      1.784      2.129      0.037         0.232     7.368
C(loc)[T.N]      -0.4921      1.948     -0.253      0.801        -4.388     3.404
x                -0.6466      0.230     -2.807      0.007        -1.107    -0.186
x:C(loc)[T.N]     0.2719      0.257      1.057      0.295        -0.242     0.786
==============================================================================
Omnibus:                       22.788   Durbin-Watson:                   2.552
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              121.307
Skew:                           0.629   Prob(JB):                     4.56e-27
Kurtosis:                       9.573   Cond. No.                         467.
==============================================================================

在此处输入图片说明

从系数的p值来看,位置和交互项的虚拟变量与零没有显着差异,在这种情况下,我的回归模型实质上减少为上图中的红线。对我来说,这表明将单独的线拟合到两组可能是一个错误,而更好的模型可能是整个数据集的一条回归线,如下所示。

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.593
Model:                            OLS   Adj. R-squared:                  0.587
Method:                 Least Squares   F-statistic:                     91.93
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           6.29e-14
Time:                        14:24:50   Log-Likelihood:                -65.687
No. Observations:                  65   AIC:                             135.4
Df Residuals:                      63   BIC:                             139.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      8.9278      0.935      9.550      0.000         7.060    10.796
x             -1.2446      0.130     -9.588      0.000        -1.504    -0.985
==============================================================================
Omnibus:                        0.112   Durbin-Watson:                   1.151
Prob(Omnibus):                  0.945   Jarque-Bera (JB):                0.006
Skew:                           0.018   Prob(JB):                        0.997
Kurtosis:                       2.972   Cond. No.                         81.9
==============================================================================

在此处输入图片说明

在我看来,这看起来不错,并且所有系数的p值现在都很重要。然而,AIC的第二个模型是比第一高。

我认识到,模型的选择大约是超过刚刚 p值或只是在AIC,但我不知道怎么利用这一点。请问有人可以提供有关解释此输出并选择适当模型的任何实用建议吗?

在我看来,单条回归线看起来还可以(尽管我意识到它们都不是特别好),但似乎似乎至少有一些理由可以拟合单独的模型(?)。

谢谢!

编辑以回应评论

@Cagdas Ozgenc

两行模型使用Python的statsmodels和以下代码进行拟合

reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()

据我了解,这实际上只是此类模型的简写

y=β0+β1x+β2l+β3xl

其中是代表位置的二进制“虚拟”变量。实际上,这实际上只是两个线性模型,不是吗?当,,模型简化为lloc=Dl=0

y=β0+β1x

这是上图中的红线。当,,模型变为loc=Nl=1

y=(β0+β2)+(β1+β3)x

这是上图中的蓝线。该模型的AIC将自动在statsmodels摘要中报告。对于单线模型,我只是使用了

reg = ols(formula='y ~ x', data=df).fit()

我认为可以吗?

@ user2864849

我不认为单线模型显然更好,但我确实担心的回归线约束得。这两个位置(D和N)在空间上相距很远,如果从中间产生的点的某个位置收集大致在我已经拥有的红色和蓝色星团之间绘制的其他数据,我也不会感到惊讶。我还没有任何数据可以支持这一点,但是我不认为单行模型看起来太可怕了,我想让事情尽可能简单:-)loc=D

编辑2

仅出于完整性考虑,以下是@whuber建议的残差图。从这个角度来看,两线模型确实看起来好得多。

两线模型

在此处输入图片说明

一线模式

在此处输入图片说明

谢谢大家!


3
努力解释为什么单一回归线对您来说看起来更好吗?对我来说,我看到两个线性可分离的簇,类别N的变化很小。您是否会因为置信区间重叠而认为第一种情况更糟?
Marsenau

6
(1)您的截距估计值告诉您的很少-它们与数据中值的范围无关。他们明显的重要性不足误导您。(2)要真正了解正在发生的情况,请将残差绘制到两个拟合中的每个拟合中。显而易见的是,第二个(单行)拟合的糟糕程度。x
whuber

3
@STudentT模型相互嵌套;AIC非常适合比较它们。两种情况下都会发布BTW,统计信息。R2
ub

3
@StudentT这两个模型都使用所有数据点。简单模型使用较少的自变量。一个数据点是整个元组。
Cagdas Ozgenc

5
如果你想利用一个基于假设的测试方法模型选择,你不能假定,因为两个预测值是每一个微不足道的移除从模型就没有什么进口。共同意义的F检验将是适当的。
Scortchi-恢复莫妮卡

Answers:


1

您是否尝试在没有交互的情况下使用两个预测变量?因此它将是:

y〜x + Loc

在第一个模型中,AIC可能会更好,因为位置很重要。但是相互作用并不重要,这就是为什么P值不重要的原因。然后,您将在控制Loc之后将其解释为x的效果。


1

我认为您很好地挑战了仅靠p值和AIC值就能确定模型可行性的观点。我也很高兴您选择在这里分享。

如您所展示的,在考虑各种术语以及它们之间的相互作用时,需要进行各种折衷。因此,要记住的一个问题是模型的目的。如果委托您确定位置对的影响y,则无论p值有多弱,都应将位置保留在模型中。在这种情况下,无效结果本身就是重要信息。

乍看起来,D位置显然意味着更大y。但是,只有一个狭窄的范围内x,而您同时拥有DN值位置。在这个小间隔内重新生成模型系数可能会产生更大的标准误差。

但是也许您不在乎位置的预测能力y。这是您刚好拥有的数据,并在您的绘图上对其进行了颜色编码显示了一个有趣的图案。在这种情况下,您可能对模型的可预测性比最喜欢的系数的解释性更感兴趣。我怀疑AIC值在这种情况下更有用。我对AIC还不熟悉;但是我怀疑这可能对混合名词不利,因为在很小的范围内你可以改变固定地点x。位置说明很少,x但尚未说明。


0

您必须分别报告两个组(或考虑使用多级建模)。简单地组合组违反了回归的基本假设(以及大多数其他推论统计技术),观察的独立性。换句话说,除非在分析中考虑分组变量(位置),否则它是一个隐藏变量。

在极端情况下,忽略分组变量会导致Simpson的悖论。在这个悖论中,可以有两个组,两个组都具有正相关,但是如果将它们组合在一起,则将具有(错误,错误)负相关。(当然,反之亦然。)请参阅http://www.theregister.co.uk/2014/05/28/theorums_3_simpson/

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.