有没有人比今天的Usain Bolt快?


12

编辑:我对给定样本统计量的给定总体中确定“真实”最大值的可能性的技术问题和方法更感兴趣。从创纪录的短跑时间来估算比博尔特先生更快的跑动者的可能性是显而易见的,这是显而易见的。通过想象并非如此来嘲笑我。


Usain Bolt是最快跑出100m的人。但是,鉴于运动员的数量很少,看来“真正的”最快的人还活着坐在某个地方的沙发上,从未尝试过竞争性的跑步生涯。

我试图利用这样一个事实,即正态分布尾部的样本之间的差异越来越小。我正在使用它通过将Usain与第二快,第三快等进行比较,来计算存在比Usain Bolt更快的人的可能性。

为此,我试图通过将正态分布的CDF相对于的导数计算出来,从而将“ Usain Bolt”之外的最大值计算出来,将其y提高到第n个(其中n约为7,000,000,000或样本小于“最大值”-其背后的逻辑在“ 德国坦克问题维基百科”页面中进行了描述,该页面概括了不同分布之间的关系,例如:

0yfYN(y)dy=λn0y[12[1+erf(yμσ2)]]n112πσ2e(yμ)22σ2dy

  1. 这是一种计算存在某人的概率比Usain Bolt更快的有效方法吗?

  2. 在“其他分布的德国坦克问题”之外,这种问题是否有名称?

  3. 有没有一种很好的方法可以从分布的极端样本估计标准偏差?查找有关有史以来最快的1亿个破折号的信息很容易,很难找到平均值和方差)

感谢您耐心与没有背景知识的程序员打交道。


2
您假设自己是否是运动员与跑步速度无关。没关系,但值得怀疑。
bayerj

@bayerj是的,我认为很明显,这将是预测下一届奥运会挑战者的一种非常糟糕的方法。但是,这似乎是一个很有趣的问题,我正在尽我所能回答这个问题,希望有人能同情并帮助我。
–ŹV

1
我发现这个问题是不恰当的,因为“快”的质量在这里指的是遗传潜能或运动天赋,而不是指达到高速的实际能力。
Digio

@Digio假定某些公司“ Fubarco”生产的一组具有正态分布的序列号的产品,则用“具有较高的序列号”替换“更快”。
–ŹV

1
用例子激励问题通常是一件好事。但是,这个例子似乎使人们分心,而不是您真正想问的问题。您能编辑一下以讨论您实际面临的情况吗?
gung-恢复莫妮卡

Answers:


2

与其他答案相反,我认为只要有可用数据,您就可以说一些关于Bolts功能的事情。首先,让我们缩小您的问题。您询问的是最快的人类,但是由于男女的跑步速度分布存在差异,因此,最好的女子赛跑者的女人似乎慢于最好的男子赛跑者,因此我们应该关注男子。为了获得一些数据,我们可以查看过去45年中100次运行最佳年度表现。关于此数据,有几件事需要注意:

  • 那是最好的跑步时间,因此它们并没有告诉我们所有人类的能力,而是告诉我们所达到的最低速度。
  • 我们假设此数据反映了世界上最佳跑步者的样本。尽管可能有更好的跑步者没有参加锦标赛,但这种假设似乎是相当合理的。

首先,让我们讨论如何分析这些数据。您可能会注意到,如果将运行时间与时间作图,则会观察到很强的线性关系。

最佳运行时间与时间

这可能会导致您使用线性回归来预测我们未来几年可以观察到的更好的跑步者。但是,这将是一个非常糟糕的主意,这将不可避免地导致您得出结论,在大约两千年的时间内,人类将能够在零秒内跑完100米,然后他们将开始达到负跑时!这显然是荒谬的,因为我们可以想象我们的能力存在某种生物学和物理上的限制,这是我们所不知道的。

X 1X 2X n Y i Z 1Z 2Z kZ iY=max(X1,X2,,Xn)X1,X2,,XnYiZ1,Z2,,ZkZi遵循GEV分配的最小值。因此,我们可以将GEV分布拟合到行驶速度数据,这导致非常合适的拟合(请参见下文)。

GEV运行速度分布

如果查看模型建议的累积分布,您会注意到Usain Bolt的最佳运行时间在最低1%分布的尾巴。因此,如果我们坚持使用这些数据以及这个玩具示例分析,我们将得出结论,运行时间短得多的可能性不大(但显然有可能)。此分析的明显问题是忽略了我们看到最佳运行时间逐年改进的事实。这使我们回到答案第一部分中描述的问题,即假设此处的回归模型存在风险。可以改进的另一件事是,我们可以使用贝叶斯方法并假设信息量优先,这可以解释一些可能尚未观察到的关于生理上可能的运行时间的数据外知识(但据我所知,目前尚不清楚)。最后,类似的极值理论已经在体育研究中使用,例如Einmahl和Magnus(2008)在体育研究中通过极值理论在田径运动中的记录

您可能会抗议,您不是在询问更快的跑步时间的概率,而是在询问观察更快的跑步者的概率。不幸的是,在这里我们不能做很多事情,因为我们不知道跑步者成为职业运动员的可能性和所记录的跑步时间对他而言是多少。这并不是随机发生的,有许多因素导致一些运动员成为职业运动员而另一些则不是(甚至有人喜欢跑步,甚至完全喜欢跑步)。为此,我们将必须有一份有关跑步者的详细人口数据,此外,由于您要询问分布的极端情况,因此数据必须非常大。因此,我同意其他答案。


1

我的第一个直觉是这是一个坏主意,但让我解释一下原因。

1)您想用一种可观察的,记录的跑步时间来测量一种不可观察的变量,潜在的跑步技能。没关系,但是:在德国战车问题中,序列号都是从相同的均匀分布生成的。在您的问题中,您必须从可观察到的变量运行时间推断潜在的变量技能(70亿人)。在GTP中,已知多个序列号。在您的问题中,您根本没有收集任何数据,而只是达到最大值(螺栓)。而且,您似乎认为这种不可观察的潜伏技能与实际的跑步时间无关,以至于某个从未跑步的人可能比博尔特更好。似乎很荒谬!

2)运动员不是人口的随机样本。通过多次试验仔细选择了它们。如果我们假设每个有能力奔跑的人一生中至少有一个种族曾参加过一次比赛,并且每个人都根据赢得比赛的频率或程度决定了是否应该继续参加更高水平的比赛种族---那么,博尔特真的是世界上最快的人似乎并不令人难以置信。

这些只是想到的第一个原因。老实说,您对此有些不知所措。无法衡量您正在谈论的事情的“概率”。


另一位受访者也发表了类似的言论,毫无疑问,在此基础上估计存在比博尔特先生更快的人的可能性是非常错误的。知道基于这些极值的预测的技术逻辑原则上是否正确也将更加有趣。
–ŹV

3
我建议将问题抽象出来,以使您真正想问的问题成为重点,因为上下文会引起很多干扰。我仍然不清楚您指的是“正态分布”代表什么。实际运行时间?运动员的跑步能力?
退化粗麻布

-2

答案是不。

您假设人口(运动员)中有一个样本,而Bolt是该样本中的最大值。因此,您正在寻找总体最大值大于样本最大值的可能性。那是你的假设。

如果您的假设是错误的,并且样本确实是人口,该怎么办?

我可以提出一个合理的论据,即每个可以奔跑的人都有机会击败他。没有人这样做,所以他才是地球人口的真正顶峰。

显然,运动员不是随机样本。我希望对此没有疑问。当然,如何成为运动员有一定程度的随机性。另一方面,如果不是运动员,那么他的运动技能和成就就无法与运动员相提并论。考虑到所有的训练条件,并且具有像Bolt一样刻苦训练的条件,我可以认为某人可能比Bolt跑得更快。但是,在田径条件下,拉扯一个非运动员并且他在100m内击败Bolt的概率为零。


我更感兴趣的是方法,背后却是正确的,想象坦克,其序号是正态分布的W /重复,而不是可能运行速度:)
- ZV
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.