在a日出生的可能性?


31

鉴于今天是a日,有人知道know日出生的可能性吗?


30
请注意,出生并非全年均匀分布,因此,随机选择的一天为leap日的概率与一个人出生的概率不同。
Ben Millwood

17
出生的?历史上的所有人?今天?所有人都还活着吗?可能是将来?除非它们所涉及的事件定义明确,否则概率是没有意义的。
豪伯

15
今天出生的人将100%是。有帮助吗?
贫民窟

8
许多父母不希望自己的孩子在leap日出生。因此,随着计划的剖腹产的上升,该概率将低于随机的一天。fivethirtyeight.com/features/...
詹姆斯Lawruk

3
我同意@whuber,这个问题定义不明确。没有正确定义概率空间,就无法回答问题。因此,投降票。
mpiktas

Answers:


24

当然。请参阅此处以获取更详细的说明:http : //www.public.iastate.edu/~mlamias/LeapYear.pdf

但从本质上来说,作者得出这样的结论:“在2千年中有485个leap年。因此,在2千年中,共有天。其中,2月29日发生在其中有485个(the年),因此概率为 “485366+2000-485365=730485485/730485=0.0006639424


9
为什么不能将其计算为1 /(4年中的天数)= 1/1461 = 0.00068
Siddhesh '16

21
@Siddhesh有几个世纪的规则。因此,例如2100年不是a年
Rentrop

8
@Siddhesh,不幸的是,它不是那么简单。years年要复杂一些。实际上,平均年长平均为365.2425天,而不是365.25天。如Wikipedia year年页面上所写,“公历...每400年删除一次leap日,这是其leap跃周期的长度。这是通过删除三个世纪年的2月29日(100的倍数)来完成的。不能精确地除以400。[3] 2000和2400年是are年,而1800、1900、2100、2200、2300和2500是普通年。”
StatsStudent

10
我不明白为什么你需要考虑2000年。years年以400年为周期,那么为什么不减少到“ 400年中有97个leap年”呢?
菲利普·肯德尔

7
为什么我们要考虑这样的较小影响,如世纪之内的“取消” leap日,而不是400的倍数,而另一方面却不考虑外部影响,例如几乎所有的生育推迟或在2月29日之前出生,只是为了保存给孩子带来的不便(或其他原因)?-至少在德国,(估计)在2月29日出生的概率几乎为零。
我和莫妮卡在一起

23

要使用统计数据准确预测该概率,了解出生地点将很有帮助。

此页面http://chmullig.com/2012/06/births-by-day-of-year/上的图表显示了每天出生数的子集(将29乘以4),这是不正确的,也是不受欢迎的这个问题,但它也链接到原始数据,并在美国提供了大致说明。我认为,这条曲线对其他国家(尤其是其他大洲)不适用。特别是在假设气候是决定因素的情况下,南半球和赤道地区可能显示出这些结果的实质性推论。

此外,还有“择优出生”的问题(由http://bmjopen.bmj.com/content/3/8/e002920.full的作者触及)-在世界上较贫穷的地区,我希望情况有所不同出生分布,仅仅是因为(非紧急情况下)剖宫产或人工分娩比发达国家少。这歪曲了出生的最终分布。

使用美国的数据,假设2月29日有约7100万出生(粗略的均值* 366)和46.000例出生,由于数据中未显示准确的时间段,因此未对correct年的分布进行校正,因此我得出了大约〜0.000648。这略低于给定的婴儿出生分布所期望的值,因此与图表给出的总体印象一致。

我将把这个粗略估计的重要性测试留给有动力的读者。但是,即使对于已经很低的2月标准,第29个(尽管未校正-2000年向数据中注入了低于平均水平的偏见)得分也很低,我认为相对较高的置信度可以拒绝均分布的零假设。


1
该数据集具有2月30日和31日的出生日期。那很好笑。在分析之前需要进行良好的清理,但其中包含大量数据,这非常棒。
Aksakal

22

我认为这个问题的答案只能凭经验得出。如果不考虑生日选择现象,季节性等因素,任何理论上的答案都是有缺陷的。这些事情在理论上是不可能处理的。

由于隐私原因,在美国很难找到生日数据。有一个匿名的数据集在这里。它来自美国的保险申请。与其他报告(例如,经常被引用的NYT文章)不同的是,它按日期列出了出生频率,而不是简单地对一年中的天数进行排名。弱点当然是抽样偏差,因为它来自保险:未包括保险的人等。

根据数据,2月29日有325例出生,总共481040例。根据Roy Murphy的数据,样本跨度为1981年至1994年。其中包括3个leap年,总计14岁。如果不进行任何调整,则在1981年至1994年2月29日出生的概率为0.0675%。

您可以通过考虑闰年的频率,这是接近1/4(调整概率不完全虽然),例如,通过本数乘以到达至0.079%的估计。这里,条件概率p的在闰年出生年02月29链接到所观察到的频率˚F ø = 325由频率˚F 大号 = 3的闰年的样品中: ˚F ø = ˚F 大号/ Ñ ˚F p 其中N = 1414/12pFØ=325F大号=3

FØ=F大号/ñFp
ñ=14是样本中的年数,是出生的总频率。F=481040

通常情况下,闰年的概率为,因此,从长远来看,平均概率P 大号的出生年02月29是: P 大号 = p 大号p p 大号Ñp大号1个/4P大号

P大号=p大号pp大号ñF大号FØF0.079

鉴于您出生于leap年,因此您可能会对2月29日出生的条件概率感兴趣: p = Np

p=ñF大号FØF0.32

因此,p之间的联系基于一些假设,例如,在任何给定年份出生的概率是均匀的,并且不会改变。P大号p

当然,这种讨论是以美国为中心的。谁知道其他国家的模式。

更新:我们自动假定OP为公历。如果您考虑不同的日历(例如农历Hijri),它将变得更加有趣,其中the年大约每30年一次。

更新2:

pFp=1个527Amitabh Chandra, Harvard University

现在,公历中最奇特的日子:作为最受欢迎的生日,1月1日,12月25日和Deb 29日将是随机出现的可能性有多大?我说随机发生的可能性很小。因此,更有趣的是看看Hijri等其他日历中发生了什么。

更新3:

P大号p

p^1个/3660.27
P^大号p3663654+1个0.068

更新4:

χ2

14365+3

d=[0101 1482
...
1231 1352];
%%
tc = sum(d(:,2)); % total obs

idL = 60; % index of Feb 29

% theor frequency, assuming uniform
ny = 1994 - 1981 + 1; % num of years
nL = 3; % # of leap years: 1984, 1988, 1992
nd = 365*ny + nL; % total # of days

fc = tc/nd; % expected freq for calendar date in sample
td = ones(366,1)*fc*ny; % roll the dates into day of year
td(idL) = fc*nL;

fprintf(1,'non-leap day expected freq: %f\n',td(end))
fprintf(1,'leap day expected freq: %f\n',td(idL))
fprintf(1,'non-leap day average freq: %f\n',mean(d([1:idL-1 idL+1:end],2)))
fprintf(1,'non-leap day freq std dev: %f\n',std(d([1:idL-1 idL+1:end],2)))
fprintf(1,'leap day observed freq: %f\n',d(idL,2))

% plots
bar(d(:,2))
hold on
plot(td,'r')
legend('empirical','theoretical')
title('Distribution of birth dates 1981-1994')
set(gca,'XTick',1:30:366)
set(gca,'XTickLabels',[num2str(floor(d(1:30:366,1)/100)) repmat('/',13,1) num2str(rem(d(1:30:366,1),100))])
grid on

% chi^2 test
[h p]=chi2gof(d(:,2),'Expected',td)

输出:

non-leap day expected freq: 1317.144534
leap day expected freq: 282.245257
non-leap day average freq: 1317.027397
non-leap day freq std dev: 69.960227
leap day observed freq: 325.000000

h =

     1


p =

     0

在此处输入图片说明


3
这是一个有用的分析(+1)。这让我想知道什么连接存在,如果有的话,之间的频率,你分析和(定义模糊的)概率要求的问题。
whuber

1
@whuber,我的回答中的概率适用于诸如保险申请分析或某些用户数据之类的案例。例如,您有一个网站,并希望标记有问题的用户数据。您可以将2月29日生日的频率与我的概率进行比较。但是,如果您正在计划一个家庭并提出这个问题,那么我的数字几乎没有用。原因是,他们没有考虑诸如实际何时进行夫妻交配或生育率以及夫妻的时期模式之类的因素,例如,这是出生日期的主要决定因素。
阿克萨卡尔邦

很高兴看到您在考虑其他因素(除纯统计数据以外)之前并未从数学入手
TheBlastOne

8

我最喜欢的书的封面曾经提供一些高度相关的证据,以反对对出生日期和日期进行统一分配的假设。具体而言,自1970年以来,美国的生育率呈现出相互叠加的多种趋势:长期,数十年趋势,非周期性趋势,周日趋势,年日趋势,假期趋势(因为诸如剖宫产术部分可以有效地安排生日,而医生通常不在节假日安排生日。结果是,一年中随机选择的一天出生的可能性不一致,并且由于出生率在各年之间有所不同,因此并非所有年份都有相同的可能性。

这也提供了证据,证明Asksal的解决方案虽然是强有力的竞争者,但也不完整。少数leap日将被此处的所有作用“污染”,因此Asksal的估算(相当偶然地)捕捉了当日和长期趋势以及 2月29日的影响。影响。您的问题并未明确定义哪些影响适合和不适合包含。

而且这种分析只对美国有影响,美国的人口趋势可能与其他国家或人口大不相同。例如,日本的出生率几十年来一直在下降。中国的出生率受到国家的监管,这对其国家的性别构成及其后代的出生率都有一定的影响。

同样,盖尔曼(Gelman)的分析仅描述了最近几十年,并且不一定清楚这甚至是您所关注的时代。

在此处输入图片说明

对于那些对这种事情感到兴奋的人,封面中的材料将在关于高斯过程的章节中详细讨论。


2
也可以在此处的博客文章中找到有关所用模型的简要说明:andrewgelman.com/2012/06/19/…–
Sakari Cajanus

3

2月29日是每年发生的日期,是4的倍数。

但是,不是100的倍数但不是400的倍数的年份不被视为leap年(例如:1900不是is年,而2000或1600是are年)。因此,如今,每400年都是相同的模式。

因此,让我们以[0; 400 [间隔] 进行数学计算:

在400年的时间里,正好是4 x 25 = 100年,是4的倍数。但是我们必须从100中减去3(100的倍数,而不是400的倍数),我们得到100-3 = 97年。

现在我们要乘97 366,97 X 366 = 35502(闰年天在400年时期的数量),它仍然是(365×(400-97))= 110 595(即AREN天数” t在400年的year年内)。

然后,我们只需将这两个数字相加即可知道400年内的总天数:110 595 + 35502 = 146 097

最后,我们的概率是400年内2月29日的数量,因此,假设有97个leap年除以我们间隔的总天数,则为97:

p = 97/146097≈0,0006639424492

希望这是正确的。


7
这是对随机选择的日期为2月29日的机会的很好的分析。我相信该主题中的大多数讨论都集中在以下事实上:该问题实际上并未回答有关出生机会的问题,这实际上并不像从可能的日子随机抽奖那样。
ub

1
一个简单得多的方法是说,每400年就有97个leap年。计算正常400年中的天数。400 * 365 = 146000.然后您需要添加97个闰年10天内得到146097.
CJ丹尼斯

2

我相信这里有两个问题。一个是“给定日期是2月29日的概率是多少?”。第二个是(实际上有人问)“ a日出生的概率是多少?”

p=97146097000066394

3149740097400143=6796001.131667

01个


2
Errr,我准备将其投票,然后到达Well,因为已经出生的人都很容易。它是0或1。
mattdm

我想这取决于概率的解释。假设我已掷硬币。我看着它,知道了结果(例如脑袋)。您正站在我旁边,但尚未看到结果。硬币出现正面的概率是多少(对您而言,对我而言,“客观地”)?在上面的示例中:对于给定的(出生的)人,概率为0或1(假设他知道自己出生的日期)。如果您随机选择一个人并且不得不猜测他的生日,那么2月29日的概率就不是一个经验问题。
data_enthusiast

1

我注意到上面的大多数答案都是通过计算特定时期的leap日数来解决的。根据定义,有一种更简单的方法可以准确地100%得到答案:

我们使用leap年将常规(365天)日历调整为平均热带年(又称平均太阳年)。平均热带年份“是从地球上看,太阳在季节周期中返回到相同位置所花费的时间”(维基百科)。热带年份略有不同,但平均(平均)热带年份约为365.24667。

如果out日是正确的,则随机选择的一天为a日的机会是((热带年份)-(非-年))/热带年份

插入大约的数字,即(365.24667-365)/365.24667,或0.24667 / 365.24667,或每百万675(0.0675%)。

但是,这是随机选择的一天。我想这是父母所不愿意的,他们宁愿不必向孩子们解释:“您的实际生日每4年才来一次”。


3
我认为这不能回答所提出的问题,因为2月29日的leap日仅存在于特定的日历系统中。这些日历系统仅在最近的历史时代才在特定社会中使用。例如,对于使用希伯来语日历估算时间的人来说,这个问题是不容易理解的,因为希伯来语日历根本没有“ 2月”!而且,即使我们假设日历中有day日,它也无法解决围绕出生到几天的概率分布的不确定性。
Sycorax说恢复Monica

@ user777,那无关紧要。如果您属于不承认leap日的文化,那么仍然会有一些人在我们的 leap日出生。
Octopus

1
@Octopus如果他们是在1582年10月之前出生的,那是公历的月份。这个问题不够具体,无法让人知道正在考虑哪些人口,这就是为什么我的评论具有至关重要的意义。
Sycorax说恢复Monica

@ user777,您正在分裂头发。关键是今天存在着公历,无论他们当时是否遵守,它都可以用于放置历史上的每一天。
章鱼

1
@Octopus你怎么知道那是重点?
Sycorax说恢复Monica

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.