我正在使用N约为200,000的数据集。在回归中,我看到很小的显着性值<< 0.001与很小的影响大小相关,例如r = 0.028。我想知道的是,有没有一种原则性的方法来确定与样本量有关的适当的显着性阈值?在解释这么大样本的效应大小时,还有其他重要的考虑因素吗?
我正在使用N约为200,000的数据集。在回归中,我看到很小的显着性值<< 0.001与很小的影响大小相关,例如r = 0.028。我想知道的是,有没有一种原则性的方法来确定与样本量有关的适当的显着性阈值?在解释这么大样本的效应大小时,还有其他重要的考虑因素吗?
Answers:
在显着性检验的渺小,约翰逊(1999)指出,p值是任意的,因为你可以让他们,如同你想通过收集足够的数据,假设零假设是错误的,它几乎总是。在现实世界中,不太可能存在完全为零的半部分相关性,这是检验回归系数显着性的零假设。P值显着性临界值甚至更为任意。.05的值是重要性和非重要性之间的界限,是按惯例使用的,而不是原则上使用的。因此,第一个问题的答案是“否”,没有原则性的方法来决定适当的重要性阈值。
那么,鉴于您的大数据集,您该怎么办?这取决于您探索回归系数的统计显着性的原因。您是否正在尝试对复杂的多因素系统建模,并开发出合理地适合或预测现实的有用理论?然后,也许您可以考虑开发更复杂的模型,并对其进行建模,如Rodgers(2010),《数学和统计建模的认识论》中所述。拥有大量数据的优点之一是能够探索非常丰富的模型,这些模型具有多个级别并且具有有趣的交互作用(假设您有这样做的变量)。
另一方面,如果您想对是否将特定系数视为具有统计学意义做出一些判断,则可能要采用Woolley(2003)中概述的Good(1982)的建议:计算q值作为,它将p值标准化为100的样本大小。正好.001的p值会转换为.045的p值-仍然具有统计意义。
因此,如果使用某个任意阈值或其他阈值有意义,那么该怎么办?如果这是一项观察性研究,则您需要做更多的工作来证明它实际上以您的思维方式是有意义的,而不仅仅是因为您未正确指定模型而显示的虚假关系。请注意,如果小效果代表选择不同治疗级别而不是治疗效果的人群之间的既存差异,则在临床上并不是那么有趣。
正如评论者所指出的,您确实需要考虑所见的关系是否具有实际意义。将您引用的数字从转换为r 2以解释方差(r是相关性,将其平方以得到方差解释),分别得出的方差只有3%和6%,这似乎并不多。
我想一种简单的检查方法是,从您知道的一个分布中随机抽取一个类似的大数两次,然后比较两个结果。如果您多次这样做并观察到相似的p值,则表明没有任何实际效果。另一方面,如果您不这样做,那么可能存在。