社会科学中大多数已发表的相关性值得信赖吗?对此该怎么办?[关闭]


9

尽管个人为揭示掠夺性期刊的行为付出了重要的努力,但仍大肆挥霍,但社会科学研究的阴影笼罩着更大,更根本的威胁(尽管研究人员肯定需要解决多个问题)。为了弄清楚这一点,根据一种观点,我们可能无法信任从小于250的样本得出的相关系数

人们很难找到一种比可信赖的相关系数更依赖于推断社会科学中的度量之间存在关联,方向和强度的测试。但是,将不会难于找到同行评议的报告,这些报告基于从少于250种情况下的数据计算出的相关系数,对两种结构之间的关系提出了强有力的主张。

考虑到当前社会科学面临的复制危机(请参见上面的第二个链接),我们应该如何仅在大样本(至少按照某些社会科学领域的标准)上查看有关相关系数稳定的报告?这是同行评议的社会科学研究领域的又一裂缝,还是在介绍中被夸大了的相对琐碎的问题?

由于对此问题不可能有一个正确的答案,因此我希望创建一个话题,可以共享,深思熟虑和辩论有关此问题的资源(当然要礼貌而有礼貌地进行)。


我认识到这是一个基于意见的问题,并略过了网站的一般准则。事实是,有很多人来此站点,以了解统计信息,包括更好地理解他们寻求采用的技术固有的陷阱。我希望提出这个广泛的问题,可以帮助实现这个公认的模糊目标。学习如何计算标准误差是一回事。了解在做出据以证据为基础的决策时使用它的含义是另一回事。
马特·巴斯特德

更糟糕的是如何选择“强制性250”案件。我越来越多地看到有人在社交媒体网站上发布请求以完成他们需要论文或论文的调查。完成调查主题。完全不知道人们将如何自我选择。再见是随机样本,因为某个人的社会群体中的人不是随机的,通常属于相似的意识形态/政治/经济群体,并且还根据他们对该主题的兴趣程度进行自我选择。提示“ 90%的人赞成X”,只是因为那些冷漠的人没有自愿。
vsz

Answers:


7

为估计的真实相关系数添加置信区间将是朝正确方向迈出的第一步(非常简单)。它的宽度立即使您对样本相关的精度印象深刻,同时,允许作者和听众测试有用的假设。当与社会科学统计学家交谈时,总是让我感到困惑的是,绝对样本相关系数高于(或其他限制)被认为是有意义的。同时,他们正在检验工作假设ρρ 0 | ρ | > 大号ρ 大号- 大号大号=0.3ρ0。这是无关紧要的。为什么很小的人口相关系数突然被认为是有意义的?“正确的”工作假设是。有了的置信区间,就可以很容易地检验这样的假设:只需检查该区间是否完全位于之上(或之下),就可以知道即使在人口。|ρ|>大号ρ大号-大号

当然,仅添加一个置信区间并使用有意义的测试不会解决太多问题(例如不良的采样设计,省略对混杂因素的考虑等)。但这基本上是免费的。我想甚至SPSS都能计算出来!


1
确实,如果SPSS能够做到...更具体地说,我认为强调CI的想法很有道理。这也将有助于进行荟萃分析。另外,在我看来,报告CI而不是p值似乎是贝叶斯方法的一种常识性近似。我一直认为贝叶斯模型倾向于“感觉”更诚实,因为它们专注于对估计值的分布建模,而不是为从单个样本中得出的总体参数找到最大可能的估计值。
马特·巴斯特德

4

正如Michael M所指出的,可以使用置信区间来评估所报告的相关性或任何其他估计的可信度。在一定程度上是这样。如果在数据收集后选择模型,CI将会太狭窄,我估计大约95%的时间发生在社会科学中(老实说,这完全是我的猜测)。

补救措施有两个:

  • 我们正在谈论“ 危机”。因此,失败的复制告知我们原始效果可能只是随机噪声。我们需要做更多(并提供资金,撰写,提交和接受)复制品。复制研究正在逐渐获得尊重,这是一件好事。

  • ñ


@Stephen,问题:“复制”是什么意思,应该使用相同或不同的数据来复制原始研究吗?复制和可重复性之间有区别吗?
预报员

首先,我认为最近几年在可复制性方面取得了实质性进展。一个即将到来的章节提供了一些建议的情感研究者,我认为翻译好了一些在行为科学子域。
马特·巴斯特德

@forecaster:应使用独立收集的新数据进行复制,否则您将不会学到任何新东西。“可重复性”不是我遇到的术语。当然,始终存在一个问题,即原始出版物是否足够详细,以便其他人可以实际重复分析。
斯蒂芬·科拉萨
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.