多次碰撞的反向生日问题


9

假设您有一个外星年,其长度N未知。如果您随机抽样所述外星人,并且其中一些人共同生日,您是否可以使用此数据来估算该年的长短?

例如,在100个样本中,您可能有两个三胞胎(即每个生日由三个外星人共享)和五个对和八十四个单身人士。在估算N时,绝对最小值是91,最大值是无界的,但是我如何找到一个合理的期望值?

假设包括“所有生日都有同等可能性”之类的事情。

与这里回答的另一个问题不同,房间中存在已知的碰撞。任何足够长的一年对于一个外星人房间都极有可能不会发生碰撞。但是很长的年份发生任何碰撞的几率较低,而短几年的发生几次碰撞的几率较低,因此为最可能的年份长度提供了一个(理论上的)范围。


3
我对这个问题的特殊版本的回答很容易概括(使用多项式分布):请参阅stats.stackexchange.com/questions/252813
ub

@Techhead以各种方式!提及参数估计的明显方法是最大似然。
Glen_b-恢复莫妮卡


1
@whuber我看到了这个问题和您的评论,但是我没有看到如何将其大部分应用到已知碰撞的样本中。找到扩展形式并不难,但是我不知道如何找到对数和。
Techhead

1
我同意您的版本过于复杂,不应将其作为重复版本关闭。
ub

Answers:


2

分布的期望值计算为。对于此问题,我们要在给定某些碰撞准则的情况下计算的分布,或者在给定某些碰撞准则的情况下找到,其中E(X)=pixiNE(N)=n=0pnnpn=P(N=n).

假设您有一些如上所述的碰撞标准,令是在给定年份为情况下满足碰撞标准的概率然后,可以通过简单地将满足碰撞标准的方式数除以通常可以安排生日的方式数来找到。一旦为每个可能的找到,那么唯一缺少的部分就是将转换为qnn.qnqnnqnpn.

如果我们假设与成正比,则由于,因此和因此,我们只需要的公式即可解决此问题。pnqnpn=αqn.n=0pn=1αn=0qn=1α=1n=0qn.qn

对于您的示例,让我们首先找到在情况下发生碰撞标准的方式数量第一个外星人单身人士可以在任何一天降落,因此有可能性。下一个单身人士可以在第一个外星人的生日之外的任何一天降落,因此有可能性。对于前84个单例完成此操作,我们得到种可能的发生方式。请注意,我们也有5对和2个三胞胎,因此,每个组的“第一个”外星人也不得落在单例对上。这导致这些外星人不会发生碰撞的方式(笨拙的语法稍后将更易于泛化)。N=n.nn1n(n1)(n2)...(n83)n(n1)(n2)...(n8452+1)

接下来,给定对或三胞胎的第二个外星人有91个选择,下一个有90个,给定前91个外星人的生日,这种情况发生的总数为。三胞胎的其余成员必须在该对的生日那天,发生的可能性是。我们将所有这些概率相乘,得出满足碰撞标准的可能方式总数为:91(911)(912)...(917+1)76

rn=n(n1)...(n8452+1)(84+5+2)(84+5+21)...(84+1)(5+2)(5+1)

此时图案是清楚的,如果我们有单件,对,和三胞胎,我们替换84与 5与以及2得到一个广义公式。我认为也很明显,通常安排生日的可能方式是,其中m是问题中的外星人总数。因此,满足碰撞标准的概率是满足碰撞标准的方式数除以外星人可以出生的方式数,即。abca,b,cnmqn=rnnm

另一个有趣的事情出现在的公式中。令,令是的其余部分,因此。注意独立于n,因此我们可以简单地将编写为常数!由于和,我们实际上可以将从分母的总和中出来。此时,它会从分子中抵消掉一部分,以获得。我们可以简化rnyn=n(n1)...(n(a+b+c)+1)=n!(n(a+b+c))!znrnrn=ynznznzn=zpn=qn/i=0qiqn=zynnmzpn=ynnm/i=0(yiim)yn进一步,如果我们让(或者这可以看作是外星人组中唯一生日的数量),那么我们得到:s=a+b+c

pn=n!(ns)!nm/i=0(i!(is)!im)

现在我们对有一个(相当)简单的公式,因此对有一个(相当)简单的公式,其中唯一的假设是与成正比(满足碰撞的概率给定标准)。我认为这是一个合理的假设,比我聪明的人甚至可以证明该假设与多项式分布后的相关。在这一点上,我们可以使用数值方法计算或做出一些近似假设,因为将随着接近接近0 。 È Ñ P Ñ = Ñ q ñ ñ = Ñ P Ñ = Ñ ë Ñ p Ñ Ñ pnE(N)P(N=n)qnN=nP(N=n)E(N)pnn


似乎您建议基于似然函数而不是概率质量函数来计算期望值。那是故意的吗?
Sextus Empiricus

2

来自Cody的出色答案提供了一种很好的方式,可以通过排除与无关的部分概率来表示的似然函数,一年中的天数(或基于平坦先验的后验分布)。NN

在这个答案中,我想更简洁地写下来,并提供一种方法来计算该似然函数的最大值(而不是期望值,后者很难计算)。


N的似然函数

从一组生日中抽取一个生日方式的数量有限制,其中为单身生日,重复生日和三岁生日的数量等于a+2b+3cnabc

rn=(na+b+c)number of ways topick m unique birthdaysout of n days(a+b+c)!a!b!c!number of ways todistribute m birthdaysamong groups of size ab and c(a+2b+3c)!1!a2!b3!cnumber of ordered ways toarrange specific single, duplicate, and triplicatesamong the aliens =n!(nabc)!×(a+2b+3c)a!b!c!1!a2!b3!c

并且只有右边的第一项依赖于,因此通过排除其他项,我们以似然函数n

L(n|a,b,c)=n(a+2b+3c)n!(nabc)!=nmn!(ns)!P(a,b,c|n)

在这里,我们遵循科迪(Cody)的表示法,并使用表示外星人的数量,使用表示唯一生日的数量。ms


N的最大似然估计

我们可以使用该似然函数来得出的最大似然估计。N

注意

L(n)=L(n1)(n1n)mnns

并且将前刚刚出现的最大针对n

(n1n)mnns=1

要么

s=n(1(11/n)m)

大约适用于大(使用Laurent级数,您可以通过代入并在点处写出的泰勒级数)nx=1/nxx=0

sk=0l(mk)(n)k+O(n(l+1))

仅使用一阶项您将得到:smm(m1)2n

n1(m2)ms

使用第二阶项以及你:smm(m1)2n+m(m1)(m2)6n2

n2(m2)+(m2)24(ms)(m3)2(ms)

因此,对于外星人,其中有唯一生日,可以使用近似值和。当您用数字方式求解方程时,您将得到,我们将其舍入为以获取MLE。m=100s=91n1550n2515.1215n=516.82n=516

将逼近与真实MLE进行比较

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.