当数据量巨大时,回归的统计显着性发生了什么?


13

我正在阅读有关大规模回归(link)的问题,whuber指出了一个有趣的观点,如下所示:

“几乎所有运行的统计测试都将非常强大,以至于几乎可以确定“显着”的影响。您必须更加关注统计的重要性,例如影响的大小,而不是重要性。”

---胡布

我想知道这是可以证明的东西还是在实践中只是一些常见现象?

任何指向证明/讨论/模拟的指针都将非常有用。


1
效果大小很重要。(+1为Glen_b的答案)。举一个简单的例子:如果我们的肥胖,我们不会我们现有的饮食改变到一个新的更昂贵的食物,如果它造成了0.05公斤的重量损失了一个月后,即使它有一个 -值0.0000000001。我们仍然会肥胖,只是更加贫穷。就我们所知,如此轻的重量减少可能仅是由于健康状况所致,所记录的录音从没有电梯的建筑物地面移动到同一建筑物的四层。(尼斯问题+ 1)p0.0000000001
usεr11852

Answers:


10

这几乎是一般的。

想象有一个很小的但非零的影响(即,与测试能够拾取的零值有些偏差)。

在小样本量的情况下,被拒绝的可能性将非常接近I型错误率(噪声占较小影响)。

随着样本量的增加,估计效应应收敛于该总体效应,同时,估计效应的不确定性会减小(通常为),直到无效情况足够接近估计效果(在总体中从随机选择的样本中仍然有可能被接受)的机会降低为有效零。n

这就是说,对于零点,最终拒绝是确定的,因为在几乎所有实际情况下,与零点的偏差总是一定的。


“ ...因为在几乎所有实际情况下,与null总是会有一定程度的偏差。” 在那里,甚至可以看到它。那将是一个相当不错的财产,不是吗?
Trilarion

这里的“零”是指系数等于零的零假设?
Arash Howaida

我认为Glen_b的答案是一般性的,适用于任何带有零点的假设检验。在回归的情况下,是的,零值是系数等于零。我自己的理解不过……
贝叶斯里奇

4

这不是证明,但在实践中不难证明样本量的影响。我想使用一个来自Wilcox(2009)的简单示例,并进行一些小的更改:

H0:μ50α=.05

我们可以使用t检验进行此分析:

T=X¯μos/n

X¯s

T=455011/10=1.44.

tνv=101P(T1.83)=.05T=1.44

T=455011/100=4.55

对于,,我们可以拒绝原假设。保持其他所有条件不变,增加样本数量将减少分母,并且您更有可能在采样分布的关键(拒绝)区域中获得值。注意,是平均值的标准误的估计。因此,您可以看到类似的解释如何应用于例如线性回归中获得的回归系数的假设检验,其中。v=1001P(T1.66)=.05s/nT=β^jβj(0)se(β^j)


Wilcox,RR,2009年。《基本统计资料:了解传统方法和现代见解》。牛津大学出版社,牛津。


1
感谢您的回答。您的答案提供了Glen_b答案的具体演示:当样本量很大时,与零值的微小偏差(实际上总是很小的偏差)将被视为有效的结果。
Bayesric

2

在回归中,对于整体模型,测试在F上进行。

RSS1RSS2

F=RSS1RSS2p2p1RSS2np2
其中RSS是残差平方和,p是参数数。但是,对于这个问题,关键是下分母中的N。不管与多么接近,当N变大时,F变大。因此,只要增加N直到F变大即可。RSS1RSS2

1
感谢您的回答。但是,我对“当N变大,F变大”持怀疑态度。当N增加时,RSS2也增加,我不清楚F为什么会变大。
Bayesric,

@Peter富勒姆这是unrealted但你可以到这里看看stats.stackexchange.com/questions/343518/...
user3022875
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.