多元线性回归的最少观察数


12

我正在做多元线性回归。我有21个观察值和5个变量。我的目的只是找到变量之间的关系

  1. 我的数据是否足以进行多元回归?
  2. t检验结果显示我的3个变量不显着。我是否需要对重要变量再次进行回归(或者我的第一次回归足以得出结论)?我的相关矩阵如下

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
    

var 1和var 2是连续变量,var 3至5是分类变量,y是我的因变量。

应该提到的重要变量在文献中被认为是对我的因变量影响最大的因素,由于我的数据有限,它也不在我的回归变量中。没有这个重要变量,进行回归仍然有意义吗?

这是我的置信区间

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**

Answers:


17

一般经验法则(基于Frank Harrell的书《回归建模策略》中的内容)是,如果您希望能够以合理的能力检测出合理大小的效应,则每个估计的参数(协变量)需要10到20个观测值。Harrell讨论了诸如“ PCA”之类的许多“降维”选项(将协变量的数量减小到更合理的大小),但是最重要的是,要对结果有任何信心,必须进行维不用看响应变量。如上所述,仅使用有效变量再次进行回归,在每种情况下几乎都不是一个好主意。

但是,由于您对自己感兴趣的数据集和一组协变量感到困惑,所以我认为以这种方式运行多元回归并不是天生的错误。我认为最好的办法是从完整模型中按原样接受结果(不要忘记查看点估计值和置信区间,以了解在某些实际情况下,重大影响是否估计为“大”,世界意义,以及实际上估计非重大影响是否小于重大影响)。

关于在没有您的领域认为重要的预测变量的情况下进行分析是否有意义:我不知道。这取决于您要基于模型做出哪种推断。从狭义上讲,回归模型仍然是定义明确的(“这些预测变量对该响应的边际影响是什么?”),但是您所在领域的某人可能很正确地说该分析是没有意义的。如果您知道自己拥有的预测变量与众所周知的预测变量(不管是什么)不相关,或者众所周知的预测变量对于数据而言是恒定的或几乎恒定的,那将有所帮助:众所周知的预测变量以外的其他因素确实会对响应产生影响。


感谢您的评论,但我不知道检查置信区间的意义是什么?
上升

自从Ben为Frank回答以来,我将为Ben回答,如果他有其他想法,他可以纠正我。Ben建议使用完整模型。然后,至少您知道没有从5中删除重要变量。过拟合问题可能会损害预测,但至少您对参数有置信区间,并且可以获得预测的置信区间。我认为这将工作没关系,如果你有一个共线性问题,关于参数的置信区间让你知道的参数值能否为0
迈克尔·Chernick

如果模型仍然缺少重要变量,则预测可能会不好,并且基于给定数据进行的预测准确性评估可能是错误的。担心模型规格不正确,请务必检查残差。弗兰克·哈雷尔(Frank Harrell)是该网站的积极成员。所以我希望这个问题引起他的注意,然后我们可以直接从他那里听到。
Michael R. Chernick 2012年

您总是会丢失重要的变量,而您永远不会真正知道...我建议查看置信区间,因为仅询问变量是否显着就会丢失很多信息。一种情况是,您所有的参数都具有大致相同的估计影响幅度,但它们的不确定性有所不同,因此某些参数很重要而其他参数则没有。你肯定希望在这种情况下,要总结“变量A和B是重要的,变量C,d,和E都没有”。CI将为您提供此信息。p<0.05
Ben Bolker 2012年

从讨论中,我认为由于缺乏足够的观察力和数据集中最重要的自变量,我必须得出以下结论:1-重要变量不是经过t检验的变量。重要的是通过t检验的一个,其置信区间不包括0。2-必须检查残差的正态性。3-必须检查相关矩阵。
上升

2

普遍问题的答案是它取决于许多因素,主要因素是(1)协变量数(2)估计数和残差的方差。对于较小的样本,您没有太大的能力来检测与0的差异。因此,我将研究回归参数的估计方差。根据我的回归经验,有5个变量的21个观察值不足以排除变量。因此,我不会很快扔出变量,也不会迷恋那些看起来很重要的变量。最好的答案是等到拥有更多数据为止。有时这很容易说,但很难做到。我将研究逐步回归,正向和反向回归,以了解选择了哪些变量。如果协变量高度相关,则可能表明选择的变量集非常不同。引导模型选择程序,因为它将揭示变量选择对​​数据变化的敏感性。您应该计算协变量的相关矩阵。也许弗兰克·哈雷尔(Frank Harrell)会对此表示赞同。他是变量选择的真正专家。我认为他至少会同意我的观点,即您不应仅基于这21个数据点来选择最终模型。


谢谢你的建议。我添加了相关矩阵。您认为使用此相关矩阵进行回归是否合理?只是强调我无法收集更多数据,也不想建模或预测。我只是想找到自变量和因变量之间的任何可能关系。
2012年

相关矩阵可以使您了解共线性。估计值可能会有很大的差异,因此,统计意义不应成为重点。Ypu可能会考虑共线性的回归诊断。这可能会有所帮助。但我建议您查看各种子集模型,以了解拟合度如何变化以及哪些变量组合看起来好而坏。我真的认为引导数据将向您显示有关预测变量选择稳定性的信息。
Michael R. Chernick 2012年

1
但是没有什么可以弥补数据的不足。我认为您只想看看是否有一个或两个变量似乎在其余变量上遥遥领先。但是您可能会发现任何东西。
Michael R. Chernick 2012年

精确地协变量是什么意思?假设我们有一些预测变量,那么算作一个单独的协变量吗?如何,等。由于存在这些预测有一定相关性,想必他们的估计系数是“价值”小于1点的自由度。回归样条曲线或其他局部回归又如何呢?我们是否必须考虑这样一个事实,即在构造分量时只使用了一部分观测值?如果我们使用内核将权重应用于预测变量,这是否会影响所使用观测值的有效数量?xx2x3x4
混淆了
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.