以前的研究人员是否仅仅因为统计上的谬误而未能检测到热手?


11

许多篮球迷/球员认为,连续拍摄好几次后,下一枪更有可能打进去。这有时被称为热手。

从(我认为)Gilovich,Mallone和Tversky(1985)开始,“证明”这实际上是一个谬论。即使连续拍摄了几张照片,也不会比您的平均拍摄百分比所指示的要拍摄下一张照片。

Miller and Sanjurjo(2015)指出,事实上确实存在大手笔,以前的研究人员只是将猎物陷于相当基本的统计谬误。他们的论点是这样的:

掷硬币四次。计算H跟随H的概率。举几个例子:HHTT的概率为1/2,HTHT的概率为0/2,TTHH的概率为0/1 1/1,TTTT和TTTH均为NA

Miller和Sanjurjo的妙语是该概率的预期值不是0.5,而是≈0.4。以前的研究人员所犯的错误是错误地假定此概率的期望值为0.5。因此,例如,如果这些以前的研究人员进行了上述硬币翻转实验,并且发现平均概率为0.497,他们错误地得出结论,没有证据表明有热手迹象(与0.5并无显着差异),而实际上强手的有力证据(与0.4显着不同)。

我的问题是:Miller和Sanjurjo是否正确地认为以前的研究人员仅由于此错误而未能检测到热手?我只浏览了一篇或两篇论文,所以我想从这里的一些人那里得到一些确认,他们可能对这方面的文献了解得更多。这种错误持续了三十年甚至更长时间似乎是一个令人惊讶的愚蠢错误。


3
对于这个站点来说,这是一个危险的问题,因为很难评估,特别是对于外部人员而言。这就是我们通过多数表决来“确定”最佳答案的方式。确保阅读所有答案,只有在阅读完所有答案后,才对那些看起来正确的答案进行投票,而对那些让您不满意/可疑的事物进行否决。
FooBar

1
这是因为正确的答案可能违反直觉。如果像这样的网站在60年前就存在,我认为对Monty Hall问题的正确答案(具有相似的属性)将不会通过多数投票而居于首位。
FooBar

@FooBar,要补充一点,这里同时存在两个复杂的问题:(1)“ Miller和Sanjuro讨论的数学效应是什么” ---这不是肯尼·LJ提出的问题,而是一个这是一个好问题,因为需要大量阅读才能理解,并且相对客观。然后,(2)为“这是否无效以前的研究”,这似乎是主观的,基于舆论....
美国UL

@usul:在经济学的某些情况下,第二个问题(“这会使先前的研究无效吗?”)的确更具争议性且基于观点,例如,有关Reinhart和Rogoff(2010)论文的争论。但我认为在这种情况下,我们有一个明确定义的数学问题。正如我试图在下面的答案中展示(为了清楚和简洁起见,我再次重写),Miller和Sanjurjo(2015)确实成功地使Gilovich,Mallone和Tversky(1985)的结论无效。
肯尼·LJ,2015年

@KennyLJ,他们表明1985年论文中的证据之一无效。这与表明结论无效,例如表明确实存在热手效应是一个截然不同的问题。
usul 2015年

Answers:


6

(此答案已在2017年7月完全重写,以提高清晰度和可读性。)

连续翻转硬币100次。

在出现三条尾巴后立即检查翻转。让pħ | 3 Ť 是硬币的比例在一个行中头的三尾每个连胜后翻转。类似地,令pħ | 3 ħ 是硬币的比例在一个行中的头三个头每条纹后翻转。(此答案底部的示例。p^(H|3T)p^(H|3H)

x:=p^(H|3H)p^(H|3T)

如果硬币翻转是iid,那么在100个硬币翻转的许多序列中,“显然”

(1)预计将与x < 0一样频繁地发生。x>0x<0

(2)E(X)=0

我们生成100个硬币翻转的一百万个序列,并得到以下两个结果:

(I)大约与x < 0相同x>0x<0

(II)ˉ X是平均的X横跨百万序列)。x¯0x¯x

因此,我们得出的结论是,抛硬币的确是愚蠢的,没有证据表明有烫手的迹象。GVT(1985)就是这样做的(但是用投篮代替了掷硬币)。这就是他们得出的结论,认为不存在热手。


打孔:令人震惊的是,(1)和(2)不正确。如果硬币翻转是iid,则应该是

(经1校正)仅在大约37%的时间发生,而x < 0在大约60%的时间发生。(在剩下的3%的时间中,x = 0x是未定义的-原因是在100次翻转中没有3H条纹或3T条纹。)x>0x<0x=0x

(2校正)E(X)0.08

涉及的直觉(或反直觉)与其他几个著名的概率难题相似:蒙蒂·霍尔(Monty Hall)问题,两个男孩问题和限制性选择原则(在纸牌游戏桥中)。这个答案已经足够长了,因此我将跳过对这种直觉的解释。

因此,GVT(1985)获得的结果(I)和(II)实际上是有力的证据。这就是Miller和Sanjurjo(2015)所展示的。


GVT表4的进一步分析

许多人(例如下面的@scerwin)不费力地阅读GVT(1985年)就表示怀疑,在这种情况下,任何“训练有素的统计学家都将”取平均值。

但这正是GVT(1985)在表4中所做的。请参见表4,第2-4和5-6列,底行。他们发现26位玩家的平均分

pħ|1ħ0.48p^(H|1M)0.47p^(H|1H)0.48

pħ|2ħ0.49p^(H|2M)0.47p^(H|2H)0.49

pħ|3ħ0.49p^(H|3M)0.45p^(H|3H)0.49

实际上它是的情况下,对于每个,平均pħ | ķ ħ > pħ | ķ 中号。但是GVT的论点似乎是,这些在统计上并不重要,因此,这些都不是热手的证据。好,可以。k=1,2,3p^(H|kH)>p^(H|kM)

但是,如果我们不取平均值的平均值(有些人认为这是一个愚蠢的举动),而是重做他们的分析并汇总26个球员(每个球员100杆,有些例外),我们将获得加权平均值的下表。

Any                     1175/2515 = 0.4672

3 misses in a row       161/400 = 0.4025
3 hits in a row         179/313 = 0.5719

2 misses in a row       315/719 = 0.4381
2 hits in a row         316/581 = 0.5439        

1 miss in a row         592/1317 = 0.4495
1 hit in a row          581/1150 = 0.5052

例如,该表显示26位选手共进行了2515张射击,其中1175张(46.72%)出手。

在玩家连续3次错失3个实例的400个实例中,有161个或40.25%立即被击中。在313个玩家连续命中3个实例中,有179个或57.19%立即被命中。

以上加权平均数似乎是有力的证据。

请记住,进行射击实验是为了让每个球员都从确定的位置开始射击,他/她可以进行大约50%的射击。

(注:“奇怪”,在表1中与76人的游戏内射门非常相似的分析中,GVT代替了加权平均值。那么为什么他们对表4却没有这样做?我猜是他们当然,确实为表4计算了加权平均值-我上面给出的数字,不喜欢他们所看到的,并选择压制它们。不幸的是,这种行为与学术界的情况相当。


示例:假设我们有序列(只有#4-#6翻转是尾巴,其余97个翻转都是头羽)。然后pħ | 3 Ť = 1 / 1 = 1,因为只有1的三尾条纹和之后立即条纹是头翻转。HHHTTTHHHHHHp^(H|3T)=1/1=1

pħ | 3 ħ = 91 / 92 0.989,因为有三个头92个条纹和那些92个的条纹91,倒装立即后是头。p^(H|3H)=91/920.989


PS GVT(1985)的表4包含几个错误。我发现至少两个舍入错误。而且对于播放器10,第4列和第6列中的括号内的值加起来不比第5列中的括号内的值少一(与底部的注释相反)。我联系了吉洛维奇(特维尔斯基死了,我不确定瓦隆是谁),但是不幸的是,他不再具有最初的成败顺序。表4是我们所拥有的。


查看1985年GMT的表4,他们测试了26名单独的学生,仅发现一个具有统计学意义的“热手”示例(他们将每个案例的p <0.05进行了检查)。这就是绿色软糖的效果。顺便说一句,如果每个学生都被正确地定位,这样他/她可以做出约50%的投篮命中率,那么少于7个学生的命中率应该在40-60范围之外(100分之内)(除非有巨大的热手效应)
亨利

4

(免责声明:我不了解这些文献。)在我看来,米勒和桑朱尔霍对某种特定的统计量有有效的批评。我不知道这是否应被视为会使所有先前的热手效果工作无效,因为它们只关注此特定措施。

措施是

M:=P(make shot | made previous shot)P(make shot | miss previous shot)
P(X)X

MEM>0EM=0

EM<0M

M


3

关于统计的应用,这两篇论文都还不够清楚,因此在此答案中,我将尝试进行澄清。

Gilovich,Mallone,和Tversky(1985)在他们的抽象定义的“热手效应”,如下所示:

篮球运动员和球迷都倾向于认为,击球后击球的机会要比前一击未击中的机会大。

kHkkMk

(1)P(HHk)>P(HMk),k1

在紧凑性方面,可以理解,所讨论的镜头是紧接连续命中或未命中的镜头。这些是理论条件概率(即常数),而不是条件相对经验频率。

P^(HHk),P^(HMk)

Ho:P(HHk)P(HMk)=0

P(H)

TP^(HHk)P^(HMk)

T

T

因此,如果Gilovich 等人有问题在本文中,这不是热手的定义,不是零假设的提法,不是要使用的统计信息的选择:这是用于执行测试的关键值的有效性(因此,如果确实存在有限的小样本分布(在原假设下)明显不以零为中心,并且也是不对称的,那么就可以使用隐式分布假设。

在这种情况下,通常要做的是通过仿真获得特殊的临界值以进行测试(例如,记住单位根的Dickey-Fuller测试的特殊临界值)。在Miller-Sanjurjo的论文中,我没有看到这样的方法,相反,他们执行了“平均偏差调整”,并且发现在调整之后,测试的结论是相反的。我不确定这是要走的路。

200n=100p=0.5
T3=P^(HH3)P^(HM3)-0.0807-0.07262.5的值为负。经验直方图为

在此处输入图片说明


1

在我看来,Miller和Sanjurjo只是错误地计算了表1中的相对频率。下面显示了他们的表格,其中增加了两个新列,该列计算了在4次硬币翻转的每个序列中出现的子序列HH和HT的数量。为了获得所需的条件概率p(H | H),必须将这些计数N(HH)和N(HT)求和,然后如下所示进行除法。如预期的那样,这样做可以使p(H | H)= 0.5。由于某种原因,Miller和Sanjurjo首先计算每个序列的相对频率,然后对这些序列求平均。那是错误的。

Sequence     Subsequences       N(HH) N(HT)    p(H|H)
TTTT  ->  TT.. , .TT. , ..TT      0     0        -  
TTTH  ->  TT.. , .TT. , ..TH      0     0        -  
TTHT  ->  TT.. , .TH. , ..HT      0     1       0.0 
THTT  ->  TH.. , .HT. , ..TT      0     1       0.0 
HTTT  ->  HT.. , .TT. , ..TT      0     1       0.0 
TTHH  ->  TT.. , .TH. , ..HH      1     0       1.0 
THTH  ->  TH.. , .HT. , ..TH      0     1       0.0 
THHT  ->  TH.. , .HH. , ..HT      1     1       0.5 
HTTH  ->  HT.. , .TT. , ..TH      0     1       0.0 
HTHT  ->  HT.. , .TH. , ..HT      0     2       0.0 
HHTT  ->  HH.. , .HT. , ..TT      1     1       0.5 
THHH  ->  TH.. , .HH. , ..HH      2     0       1.0 
HTHH  ->  HT.. , .TH. , ..HH      1     1       0.5 
HHTH  ->  HH.. , .HT. , ..TH      1     1       0.5 
HHHT  ->  HH.. , .HH. , ..HT      2     1       0.66
HHHH  ->  HH.. , .HH. , ..HH      3     0       1.0 
                                 --    --       ----
                                 12    12       0.40
                            p(H|H)=N(HH)/N(H*)
                                  =12/(12+12)
                                  =0.5

他们的论点是,应该对概率p(H | H)进行平均(因为所有序列均等),而不是像单独计算TT和TH那样发生。
吉卡德(Giskard)2015年

1
也许一个更简单的表会使他们的错误更加明显。我们只允许两个特定的4翻转序列:TTHT和HHHH。这些给出以下2-翻转子序列:TT,TH,HT,HH,HH,HH。从此列表中可以很明显地看出,当第一个掷硬币显示H时,很有可能紧接着另一个H(发生4次中的3次)。确实是一个“热钱币”!但是Miller和Sanjurjo的方法根本无法预测热量,因为TTHT和HHHH的平均频率(0.0和1.0)为0.5。另一方面,通常的方法给出正确的答案:p(H | H)= 3 /(3 + 1)= 0.75。
scerwin

我认为他们的观点是,您指出的“错误”正是早期研究人员所做的。
肯尼·LJ

1
也许。但是关于先前研究人员的说法正确吗?没有训练有素的统计学家会像Miller和Sanjurjo在表1中那样计算概率。这类似于通过首先计算每场比赛的平均得分然后对各场比赛取平均值来计算棒球选手的击球平均值。这是完全错误的。
scerwin 2015年

“但是关于先前研究人员的说法是正确的吗?没有受过训练的统计学家能够像表1所示的那样,计算出Miller和Sanjurjo的概率。” 也许您实际上应该花时间阅读有问题的论文。特别是GVT(1985)。
肯尼·LJ

0

在任何观察到的序列中,最后一个条件是“缺失的”,即此后没有值。作者通过简单地忽略发生这种情况的情况来处理此问题,称它们是未定义的。如果序列较短,那么此选择将对计算产生明显影响。图1很好地说明了这一想法。


-1

我将上面的评论更改为答案,并声称原始问题的答案是原始论文是正确的。正如我在评论中所述,2015年论文的作者抛出了应该从逻辑上纳入其分析的序列,因此引入了支持其主张的偏见。世界按其应有的方式运作。

回应评论的附录:我们看论文中的表1。我们看到我们从最后一列中剔除了4个值,因此要获得预期的差异,我们仅对16个序列中的12个进行平均。如果我们将这些概率视为频率,并且说,对于第一行TTTT,头部跟随头部的频率是多少,那么从逻辑上讲它总是会发生,因此我们应该在p(H,H )列,而不是破折号。对于其他三个序列,我们这样做,得出结论,期望的差值为0,而不是-.33。当对数据有清晰的逻辑解释时,我们不能仅仅抛出这样的数据。

请注意,为了使漂移消失,我们必须正确计算概率,而本文没有做。该表中的概率被称为“在给定的四次抛掷中,头部跟随尾巴的概率”。而且我们看到对于TTTH行,我们应该相信概率为1/3。不是。该行有四次抛掷,而该行中的四次抛掷之一是事件“头追尾”。概率是1/4。因此,正确计算概率,并使用所有行,您将获得30年以来被接受的答案。


问题是,Miller和Sanjurjo(2015)指出先前的研究人员犯了一个错误(因此未能发现热手)是否正确。如果是这样,请解释。如果没有,也请解释。问题不是我们是否可以或仅仅“像这样扔掉数据”或“世界是否按其应有的方式工作”。
肯尼·LJ

Miller和Sanjuro是不正确的,因为他们丢弃了逻辑上属于分析的数据,因此引入了世界上不存在的偏差。
user164740
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.