人们在收集或解释数据时最常犯的偏见是什么?


39

我是经济/统计专业。我知道,经济学家试图通过确定人们行为不合理的情况来修改对人类行为和理性的假设。例如,假设我为您提供100%的损失1000 美元的机会或50%的2500 美元损失的机会,人们选择2500 美元的期权,即使后者的期望值比保证的1000 美元的损失更大失利。这被称为“损失厌恶”。行为经济学家现在研究这些模式,并试图确定人类偏离那些通常被认为构成“理性”行为的公理的方式。在这里,我认为选择损失最小的预期是合理的。

我想知道统计学家是否已识别出数据收集中的常见模式,从而在人们解释数据的方式上产生了偏颇的结果。如果本质上是一种“理性”的数据收集方式,那么我认为有些例子表明人类会偏离这种情况并表现出“偏见”。如果是这样,人类在收集或解释数据时最常犯的偏见是什么?


5
Podsakoff等人发表了一篇很棒的论文。回顾了通用方法的偏见并提出了统计和程序上的补救措施:ln.edu.hk/mkt/staff/gcui/CommonMethodBias.pdf查看表
2。– ayhan


10
你有一个非理性的非理性推定。您无法将效用函数应用于结果。在您说明的示例中,假设该人拥有1000 美元,并且必须从现在起一分钟之内用它偿还向黑帮的贷款,否则将被黑帮杀死。的100%的几率$以100%的机会损失1000所导致被杀,而的50%的几率$ 2500个损失只会导致被杀害的50%的机会。作为经济学专业的学生,​​应该在宣布非理性之前将实用性作为起点。
Mark L. Stone,

3
统计人员通常不会进行此类研究。我想知道这个Q是否更适合Psychology&Neuroscience SE网站。
gung-恢复莫妮卡

3
我认为路灯效果 -在路灯柱下寻找丢失的钥匙(数据),因为那是夜晚的灯光-非常普遍,尤其是在现在,点击了这么简单的数据。//没有“合理的方式”来收集数据,因为您-收集数据的研究人员-不是随机的。
AS

Answers:


23

我认为在学术界,p值很容易被误解。人们往往会忘记p值表示条件概率。即使已经完美地进行了实验并且满足了所选统计测试的所有要求,错误发现率也通常比显着性水平α高得多。错误发现率随着统计能力和真实阳性率的降低而增加(Colquhoun,2014; Nuzzo,2014)。

另外,人们倾向于将他们的估计视为真实,将他们估计的参数视为随机(Haller&Kraus,2002)。例如,当他们说在“ 95%的情况下,此确定的置信区间覆盖了参数”时...

相关性和因果关系的混淆可能也是数据解释中非常常见的错误。

在数据收集方面,我认为一个常见的错误是采用最易于访问的方法,而不是最具代表性的示例。

Colquhoun,D.(2014年)。对错误发现率和对P值的误解的调查。皇家学会开放科学,1-15。

Nuzzo,R.(2014年)。统计误差:P值,统计有效性的“金标准”并不像许多科学家所认为的那样可靠。自然,506,150–152。

Haller,H.&Kraus,S.(2002):意义的误解:学生与老师分享的一个问题?在线心理研究方法,第7卷,第1期


19

我会说一般无法理解真正的随机性是什么样子。人们似乎期望的伪造模式比随机事件序列中实际发生的伪造模式少。当我们尝试自己模拟随机性时,也会显示出来。

另一个相当普遍的问题是不像赌徒的谬误那样理解独立性。有时我们认为,即使显然不可能发生,先前的事件也可能影响未来的事件,例如先前处理的一叠纸牌会影响未来的事件。


7

已经指出,(行为)经济学家标记为“非理性”或“偏见”的许多行为和思想过程实际上在现实世界中具有很高的适应性和效率。但是,OP的问题很有趣。不过,我认为,参考关于我们认知过程的更基本的描述性知识,而不是去寻找与经济文献中讨论的特定“偏见”(例如,损失厌恶,end赋效应,基本速率忽略等)。

例如,可评估性无疑是数据分析中的一个问题。评估性理论指出,我们偏重于我们认为易于解释或评估的信息。考虑回归系数的情况。评估系数的“现实世界”后果可能是艰苦的工作。我们需要考虑自变量和因变量的单位以及自变量和因变量的分布,以了解系数是否具有实际意义。另一方面,评估系数的重要性很容易:我只是将其p值与我的alpha水平进行比较。鉴于与系数本身相比,p值具有更高的可评估性,因此如此多的p值不足为奇。

(标准化可提高系数的可评估性,但可能会增加歧义:由于我们无法使用数据的“原始”形式,因此无法获得或保留相关信息的感觉。)

一个相关的认知“偏见”是具体性原则,即在决策上下文中“就在那里”超重信息的趋势,并且不需要从内存中进行检索。(具体性原则还指出,我们可能会按照给出的格式使用信息,并且倾向于避免执行转换。)解释p值可以通过仅查看回归输出来完成。它不需要我检索关于我正在建模的事物的任何实质性知识。

我希望统计数据解释中的许多偏差都可以归因于这样的普遍理解,即我们在解决问题或做出判断时可能会采取简单的方法(请参阅“认知错误”,“有限理性”等)。 。与此相关的是,“轻松”地做某事通常会增加我们持有所得到的信念的信心(流利度理论)。(人们可能还会考虑更易于表达的数据的可能性-对我们自己或对他人-在我们的分析中被夸大了。)我认为当我们考虑可能的例外时,这变得特别有趣。例如,一些心理学研究表明,如果我们认为问题应该难以解决,那么我们可能会倾向于不太具体和更困难的方法和解决方案,例如,选择简单的方法而不是简单的方法。


7

我能想到的最大的单一因素被广泛称为“确认偏差”。在确定了我认为我的研究将要显示的内容之后,我毫不批评地接受了得出该结论的数据,同时为似乎驳斥它的所有数据点找借口。我可能会不知不觉地将任何不符合我的结论的数据点都视为“明显的仪器错误”(或等同的错误)。在某些情况下,它不会那么公然。与其完全扔掉那些数据点,不如编造一些公式来消除“错误”,这将很方便地将结果引导至确认我的既定结论。

没有什么特别邪恶的。这就是我们大脑的运作方式。要消除这种偏见需要花费大量的精力,这也是科学家喜欢编造双盲研究的原因之一,以至于进行测量的人员不知道该实验有望证明什么。然后,这需要巨大的纪律,以免改变他忠实测量的内容。


1
我认为这实际上是最危险的偏见,因为它可能已经出现在数据收集阶段,例如,在一个很小的子样本中收集数据,该子样本最有可能确认您的期望或使用领先的调查问题。
stijn

1
学科之间的确认偏差可能真的很糟,甚至学科的基本基础也不同,从而导致断言:“在(使用)您的学科(及其感应方法)中,X是不可能的,但是在我的学科中,X很明显(我们可以X)”。例如,苹果应该挂在树上或躺在地上;他们不能自行“堕落”。通常,在物理科学中,数学基础的变化掩盖了混乱。
菲利普·奥克利

6

线性度

我认为在数据解释/分析过程中一个普遍的偏见是人们通常会很快假设线性关系。在数学上,回归模型假定其确定性成分是预测变量的线性函数。不幸的是,并非总是如此。最近,我参加了一次大学海报发布会,至少可以说,我看到的线性模型中直截了当的二次或非线性趋势的数量。

p


2

一个有趣的案例是关于赌徒谬论的讨论。

是否应包括或排除现有数据?如果我已经领先6个6,那么这些尝试中是否包括这些?清除先前的数据。

什么时候应该从绝对数更改为比率?初始连胜期间获得的优势需要很长时间才能恢复为零(随机游走)。

一百万美元中的0.1%对于一家大公司而言可能并不多,但是对于一个个体交易者来说,放下1000美元可能是生与死(这就是为什么投资者希望“带动”人们投资的原因)。能够转换为百分比可能会产生偏差。

甚至统计学家也有偏见。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.