同一班级中五个孩子具有相同名字的概率

在婴儿命名论坛上，准父母一直在重复他们的《对珍妮弗的恐惧》的某些版本：“我不希望我的孩子成为同班5名孩子中的一个。” 事实是，没有哪个名字比这种受欢迎程度更接近了，即使在詹妮弗热潮的高峰期，您也没有一个班上有五个人。我想为这些父母提供某种答案，那就是这种名字重复的巧合是多么不可能。

使用美国社会保障局（Social Security Administration）广泛的婴儿名字数据（https://www.ssa.gov/oact/babynames/limits.html），有人可以告诉我如何计算出在美国有5个小学班的机会同名的孩子？（为简单起见，“同名”是指相同的拼写，“学校班级”是指所有孩子都出生于同一年。）我没有指定班级人数，但绝对应大于4 。:-)

probability combinatorics

— m
source

关于婴儿名字的帖子是Andrew Gelman博客上反复出现的主题。我在他的网站上找不到任何帖子，他都没有讨论您的特定问题。他确实链接到“婴儿名字博客”，在这里您可能会有更多的运气得到答案。 andrewgelman.com/2005/09/07/baby_name_blog

— 麦克·亨特

我想你可以串在一起的东西用用说的成功，第一顶从人口普查数据中抽取20名，如概率的多项分布此。

— Antoni Parellada'8

SSA是否提供有关有名字的孩子数量的数据？我只找到有关等级的信息，显然会丢弃一些有用的信息。

— Sycorax说恢复莫妮卡

@AntoniParellada我认为这种情况的现实更加微妙：由于美国学校系统在收入和种族方面处于高度隔离状态，因此我认为国家统计数字与实际教室的对应性较差。

— Sycorax说恢复莫妮卡

当我在一家（小）小学读书时，我们的班级很小，只有三个约翰（我认为男孩和女孩加起来只有14个左右）。一年，我们与上一年相结合，组成了一门全班制……并获得了第四名约翰。现在，约翰是很常见的，但再不是所有那常见。（就原始问题而言，三个就几乎和五个一样烦人）。多次重复使用某个特定名称的机会非常小，但是多次重复出现某个名称的机会将会更高。

— Glen_b-恢复莫妮卡

Answers:

所有数据都可以在这里找到。表格中的每个值代表从该位置和出生年份获得25个人的样本的概率，其中5个人将共享一个名字。

方法：我对每个名称使用二项式PDF来查找任何给定的25人课程有5个人共享一个名称的可能性：

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

P_{n} (5 + k i d s s h a r e n a m e) = \sum_{\forall n a m e s} \sum_{k = 5}^{n} (\binom{n}{k}) p_{i}^{k} (1 - p_{i})^{n - k}

$P_n(5+\ kids\ share\ name) = \sum_{\forall\ names}\sum_{k=5}^n{n \choose k}p_i^k(1-p_i)^{n-k}$

例如，如果总共有4,000,000个孩子和21,393个Emily，那么在给定的班级中有25名学生的情况下，有5个Emily的概率为Binomial（25，5，0.0053）= 0.0000002。对所有名称求和不能给出确切的答案，因为根据包含/排除原则，我们还必须考虑由5个人组成多个小组的可能性。但是，由于这些概率在所有实际用途中几乎都为零，因此我认为它们是可以忽略的，因此。 $P(\bigcup A_i) \approx \sum P(A_i)$

更新：正如许多人指出的那样，随着时间的推移，各州之间会有很大的差异。因此，随着时间的推移，我逐个州运行了同一程序。结果如下（全美范围内的概率为红色，单个州为黑色）：

有趣的是，在过去的几十年中，佛蒙特州（我的故乡）一直是发生这种情况的最可能地点之一。

— 戴维·C
source

您是否有机会解释如何获得这些数字？您无需花太多功夫-我拥有数学学士学位，而且我知道在哪里查找东西-但我真的很想知道实际上导致概率出现的那种推理（相反令人生畏的叹息）。

— JPmiaou '16

这是假定以相同的概率随机给定名称，而事实并非如此。现实生活中的经验还表明，同名孩子的班级要多于 200个中的1个！

— 添

我得到的结果略有不同，但是已经接近了。但是，这不值得讨论，因为结果的地理和时间差异很大。 自1910年以来，答案已经改变了两个数量级，在各州之间也改变了一个数量级。由于几乎没有来自整个美国的小学班级，因此从国家名字列表中随机选择的模型是不合适的。

— ub

（1）查看下载的国家/地区文件中的其他年份。（2）查看同一站点上可用的状态文件。

— ub

是的，随时间变化的概率图是戏剧性的：到1980年开始急剧下降。但是，正如人们所希望的那样，国家的变化确实很大：名字在地理上有所不同，并且受种族，收入和其他人口因素的影响很大。（+1表示您对状态和时间变化的进一步调查，顺便说一句。）

— whuber

请参阅以下适用于Python2的Python脚本。

答案的灵感来自David C的答案。

我的最终答案是，根据https://www.ssa.gov/oact/babynames/limits.html “国家数据”中的数据，在一类中至少找到五个Jacobs的可能性，其中Jacob是最可能的名字。从2006年开始。

根据二项式分布计算概率，其中Jacob-Probability为成功概率。

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

最高至少有五个同名孩子的概率低于25：雅各布名字的4.7e-07

最高至少有五个同名孩子的概率不超过50：雅各布名字当然是1.6e-05。

最高当然，至少有五个相同名称的孩子的概率不超过100：Jacob名称为0.00045。

与David C的结果相差十倍。谢谢。（我的答案并没有列出所有名称，应该进行讨论）

— 费曼
source

该答案似乎并未解决某个名称在教室中出现五次或以上的可能性的问题。

— ub

@feinmann我认为对所有名称进行求和是适当的，因为在一类中拥有两组或更多的具有相同名称的5个人的可能性几乎为零，并且对于所有实际目的而言都是可以忽略的。也就是说，根据包含/排除原则，如果我们忽略这种可能性，则

P (⋃ A_{i}) \approx \sum P (A_{i})

$P(\bigcup A_i) \approx \sum P(A_i)$

— David C

不，您只是在提出问题时尚未回答问题。该机会的一些名字会出现五次以上是远远大于一个最大的机会给的名字会出现五次或更多次。

— ub

正如@whuber指出的那样，“ 5 Jacobs”的论点要比“某些名字的5”弱，但无论如何在婴儿名字的讨论中可能会有用：“这里是五个孩子的名字最受欢迎的可能性。使用最受欢迎的名称，因此您的可能性更低。”

— JPmiaou

这不正好，因为可能性并不是相互排斥的：你可以有5个或更多Thomases 和 5个或更多理查兹（和甚至5个或更多亨利）在一个类中。所以这是一个上限。@DavidC在此处的评论中认为此类事件的可能性微不足道。

— Scortchi-恢复莫妮卡