我是一名经济学经济学的学生,在计量经济学和R方面有一定的经验。我想知道是否存在过尽管变量在统计上不显着但是否应该在回归中包含变量的情况?
我是一名经济学经济学的学生,在计量经济学和R方面有一定的经验。我想知道是否存在过尽管变量在统计上不显着但是否应该在回归中包含变量的情况?
Answers:
是!
系数在统计上与零没有区别,并不表示该系数实际上为零,也不表示该系数不相关。一个效果没有通过任意的统计截止值并不意味着一个人不应该试图控制它。
一般而言,眼前的问题和您的研究设计应指导将哪些内容包括在内。
而且也没有把这个作为一个详尽的清单。不难提出更多建议...
这种情况经常发生的是具有固定影响的回归。
假设您有面板数据,并且想要估算模型中的:
用将视为固定效应的普通最小二乘法估计该模型等效于使用每个的指标变量运行普通最小二乘。
无论如何,关键是变量(即指标变量上的系数)通常估算不佳。任何单独的固定效应通常在统计上重要。但是,如果考虑到固定效应,您仍将所有指标变量包括在回归中。
(还要注意,使用内置方法时,大多数统计信息包甚至都不会为您提供单个固定效果的标准错误。您实际上并不关心单个固定效果的重要性。您可能确实关心它们的集体意义。 )
如果要将次多项式拟合到某条曲线,则几乎总是包含低阶多项式项。
例如,如果要拟合二阶多项式,则应运行:
通常,强制而是运行 会很奇怪
但是牛顿力学的学生将能够想象例外。
假设您要估算一个AR(p)模型,并且还要包括低阶项。例如,对于AR(2),您将运行:
运行起来将很奇怪:
正如@NickCox提到的,和术语类似地倾向于并存。有关更多信息,请参见例如本文。罪
当有充分的理论理由时,您希望包括右侧变量。
正如此处以及在StackExchange上讨论的其他答案一样,逐步选择变量会产生许多统计问题。
区分以下内容也很重要:
在后一种情况下,争论系数无关紧要。它可能只是测量不佳。
是的,有。如果未包括在内,则任何可能以有意义的方式与您的响应变量相关联的变量(即使在统计学上不重要的水平)也可能使您的回归感到困惑。这称为规格不足,导致参数估计不如预期的那样准确。
https://onlinecourses.science.psu.edu/stat501/node/328
从上面:
如果回归方程缺少一个或多个重要的预测变量,则回归模型的规格不足(结果2)。这种情况可能是最坏的情况,因为未指定的模型会产生偏差的回归系数和偏差的响应预测。也就是说,在使用模型时,我们将始终低估或高估人口斜率和人口均值。更糟的是,已经很糟糕的问题变得更加严重,均方误差MSE往往会高估σ²,从而产生比应有的更大的置信区间。
通常,由于它们的重要性,因此不包括或排除线性回归变量。之所以包含它们,是因为您假设所选变量是回归标准的(良好)预测变量。换句话说,预测变量的选择是基于理论的。
线性回归中的统计无关紧要可能意味着两件事(我知道):
排除无关紧要的预测因素的有效原因是,您正在寻找能解释标准差异或其中大部分标准的最小预测因素子集。如果找到它,请检查您的理论。
在计量经济学中,这种情况左右发生。例如,如果您使用的是季度季节性假人Q2,Q3和Q4,那么作为一个组,它们通常很重要,但是其中一些单独而言并不重要。在这种情况下,通常将它们全部保留。
更新:另一个常见的例子是预测。经济学计量学通常是从经济学系的推理角度讲授的。从推理的角度来看,很多注意力都集中在p值和重要性上,因为您正试图了解是什么导致了什么等等。在预测中,并没有过多地关注这些内容,因为您所关心的只是模型可以预测目标变量的程度。
这类似于机器学习应用程序,顺便说一句,它们最近进入了经济学领域。您可以建立一个模型,其中包含所有预测不佳的重要变量。在ML中,它通常与所谓的“过度拟合”相关联。显然,在预测中很少使用这种模型。
您在问两个不同的问题:
编辑:对于原始帖子,这是正确的,但在编辑后可能不再正确。
关于第一季度,我认为它已经太广泛了。有许多可能的答案,其中一些已经提供。另一个示例是在构建预测模型时(请参阅下面引用的源以获取解释)。
关于第二季度,统计意义不是建立模型的合理标准。Rob J. Hyndman在他的博客文章“变量选择的统计检验”中写道:
尽管有许多本应该更好地使用变量的事实,但统计意义通常不是确定变量是否应包含在模型中的良好基础。统计检验旨在检验假设,而不是选择变量。
还要注意,您经常可以发现一些纯粹是偶然地具有统计学意义的变量(该机会由您选择的显着性水平来控制)。仅观察到变量在统计上是重要的,不足以得出该变量属于模型的结论。
我将添加另一个“是”。一直以来,我一直被教导-并且我一直试图将它传递给我-协变量选择的主要考虑因素是领域知识,而不是统计数据。例如,在生物统计学中,如果我要对个人进行一些健康结局建模,那么无论回归结果如何,您都需要一些令人难以置信的合理论据,使我不要在模型中包括年龄,种族和性别。
这也取决于模型的目的。如果目的是更好地了解与您的结果最相关的因素,那么建立一个简约的模型会有一些好处。如果您只关心预测,而不是那么了解,那么消除协变量可能是一个较小的问题。
(最后,如果您打算使用统计信息进行变量选择,请查看弗兰克·哈雷尔对此主题的看法-http: //www.stata.com/support/faqs/statistics/stepwise-regression-problems/,以及他的《回归建模策略》一书,简而言之,当您使用逐步的或类似的基于统计的策略来选择最佳预测变量时,任何关于“这些良好预测变量吗?”的检验都存在极大的偏见- 当然,它们好的预测变量,您是在此基础上选择它们的,因此这些预测变量的p值错误地低。)
“统计上的无关紧要”的结果真正说的唯一一件事是,在选定的I类错误级别上,我们甚至无法确定回归变量对因变量的影响是正还是负(请参阅此文章)。
因此,如果我们保留该回归变量,则任何有关其对因变量的影响的讨论都没有统计证据可支持。
但是这种估计失败并不是说回归变量不属于结构关系,而是说对于特定的数据集,我们不能确定地确定其系数的符号。
因此,原则上,如果存在支持其存在的理论论证,则应保留回归器。
此处的其他答案提供了在其中将此类回归器保留在规范中的特定模型/情况,例如,提及固定效果面板数据模型的答案。