有99个百分点还是100个百分点?它们是一组数字,还是指向单个数字的分隔线或指针?


27

有99个百分点还是100个百分点?它们是数字组,分隔线还是指向单个数字的指针?

我想同样的问题将适用于四分位数或任何分位数。

我已经读到,给定n个项目,特定百分位数(p)处的数字的索引为 i = (p / 100) * n

这对我来说意味着有100个百分位数..因为假设您有100个数字(i = 1至i = 100),则每个数字都有一个索引(1至100)。

如果您有200个数字,那么将有100个百分位数,但每个百分数都是两个数字组成的组。或100个分频器(不包括最左或最右分频器'cos),否则您将获得101个分频器。或指向单个数字的指针,因此第一个百分位数将引用第二个数字(1/100)* 200 = 2,而第百个百分位数将引用第200个数字(100/100)* 200 = 200

我有时听说有99个百分位。

谷歌显示了一个牛津词典,它用百分位数表示:“可以根据特定变量的值的分布将总体分为100个相等的组。” “随机变量的99个中间值中的每个中间值将频率分布分为100个这样的组。”

维基百科说“第20个百分位是可以找到20%的观察值的值”,但实际上是指“可以找到20%的观察值以下或等于该值的值”,即“其中20个百分率的值值的%等于<=”。如果只是<而不是<=,则根据该推理,第100个百分位数将是一个值,低于该值可能会找到该值的100%。我已经听说过,不能有百分之一百的说法,因为您不能有一个数字,该数字下有100%的数字。但是我认为也许您无法拥有百分位数的说法是不正确的,并且基于这样的错误,即百分位数的定义涉及<= not <。(或> =不是>)。因此,百分之一百将是最终数字,并且>


4
我认为100由于其对极端情况的不对称处理而不太可能是一个合理的答案。案例可以为任一99进行(如在你引用的定义)或101
whuber

4
从历史上来说,分位数(如我们现在所说的)首先是汇总点,然后通过扩展来界定它们所界定的垃圾箱,类别或区间。因此,包括中位数在内的三个四分位数定义了四个bin,依此类推。
Nick Cox

1
@whuber您写道:“我认为100不可能由于其对极端情况的不对称对待而成为一个合理的答案。” <-您可以详细说明吗?
barlop

3
我在stats.stackexchange.com/questions/235330/…中列出了各种分位数术语的早期使用。如果您在OED或jstor中查看,您将获得历史用法的示例。
Nick Cox

2
@whuber是的,看来我所引用正确称为“百分等级”,在测试成绩报告&C .:使用en.wikipedia.org/wiki/Percentileen.wikipedia.org/wiki/Percentile_rankncme .org / resources / glossary。致使您感到困惑的道歉。在我的辩护中,区别似乎取决于介词“在”与“在”中的用法(请参阅第一个链接)。
杰夫Y

Answers:


32

这些百分位四分位等感觉都得到了广泛使用。 最容易说明四分位数的区别:

  1. “除法”意义-有3个四分位数,这是将分布(或样本)分为4个相等部分的值:

       1   2   3
    ---|---|---|---
    

    (有时将其与最大值和最小值一起使用,因此有5个四分位数编号为0–4;请注意,这与上面的编号没有冲突,只是对其进行了扩展。)

  2. “ bin”意义:有4个四分位数,这3个值将分布(或样本)划分成的子集

     1   2   3   4
    ---|---|---|---
    

两种用法都不能被合理地称为“错误”:许多经验丰富的从业人员都使用了两种用法,并且两种用法都出现在大量权威资料中(教科书,技术词典等)。

对于四分位数,通常从上下文中清楚地使用所使用的意义:在第三四分位数中讲的只能是“ bin”意义,而在第三四分位数以下讲的所有值很可能意味着“除法”意义。对于百分位数,区别通常更不清楚,但是对于大多数用途而言,区别也不是那么重要,因为1%的分布是如此之小-一条窄带近似于一条线。说到第80个百分位以上的每个人都可能意味着收入最高的20%或收入最高的19%,但是在非正式的情况下,这并不是主要区别,并且在严格的工作中,其余上下文应该大概可以阐明所需的含义。

(此答案的一部分改编自/math/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles,该书还提供了引号+参考。)


2
(+1)这个迟来的答案很好地引起了人们的注意。
尼克·考克斯

关于en.wikipedia.org/wiki/Percentile呢?说“每个分数都在百分位数之内” <-听起来像是整个数据集大小的bin,而您的bin都是相等的大小
barlop

1
维基百科条目确实是这样说的。我想不出这种措词的辩护。Wikipedia很棒,除非有误导或错误之处。这听起来很轻松,但是我所能做的就是鼓励任何观看Wikipedia上活跃的人来改善条目。每个人都必须为自己的行为和不做什么制定规则,在这里和其他一些地方活跃是我个人的限制。
Nick Cox

5

用一粒盐来回答这个问题-刚开始是很错误的,我仍在决定如何处理。

问题部分与语言和用法有关,而此答案侧重于数学。我希望数学将为理解不同用法提供一个框架。

解决此问题的一种好方法是从简单的数学开始,然后再处理到更复杂的真实数据情况。让我们从PDF,CDF和逆CDF(也称为分位数函数)开始。所述x个位数与PDF分布的f和CDF FF1(x)。假设第z个百分位数为F1(z/100)。这提供了一种方法来确定您所确定的歧义:我们可以研究一下F 是1)不可逆的,2)仅在特定域上可逆的,或3)可逆的,但其逆数永远不会达到某些值。

1)的示例:我将把这个留到最后;继续阅读。

的2实施例):对于均匀分布0,1,当限制为[0,1]的CDF是可逆的,所以第100和第0个百分位数可以被定义为F-1个1个F-1个0给出该警告。否则,它们将由于不明确的 F-0.5(例如)也为0。

2)的另一个示例:为了在从0到1和2到3的两个不相交的间隔上均匀分布,CDF看起来像这样。

在此处输入图片说明

这种分布的大多数分位数都存在并且是唯一的,但是中位数(第50个百分位数)本质上是模棱两可的。在R中,它们走了一半:quantile(c(runif(100), runif(100) + 2), 0.5)返回约1.5。

3)的示例:对于正态分布,不存在第100个和第0个百分点(或者它们“是” ±)。这是因为普通CDF永远不会达到0或1。

对1)的讨论:对于“很好”的cdf,例如具有非极端分位数或连续分布的cdf,百分位数存在且是唯一的。但如泊松分布离散分布这样,我的定义是不明确的,因为对于大多数z/100,没有yF(y)=z/100。对于期望值为1的泊松分布,CDF如下所示。

在此处输入图片说明

对于第60个百分位数,R返回1(quantile(c(rpois(lambda = 1, n = 1000) ), 0.60))。对于第65个百分位数,R还返回1。您可以将其视为绘制100个观测值,将它们从低到高排序,然后返回第60或65。如果这样做,您通常会得到1。

当涉及真实数据时,所有分布都是离散的。(经验CDF为runif(100)np.random.random(100)具有100的增量,聚类在0.5左右。)但是,R的quantile功能不是将它们视为离散的,而是将它们视为来自连续分布的样本。例如,样本3,4,5,6,7,8的中位数(第50个百分位数或0.5个分位数)为5.5。如果从unif(3,8)分布中抽取2n个样本,并在第n个样本与第(n + 1)个样本之间取任意数字,则随着n的增加,将收敛于5.5。

有趣的是还要考虑具有均等概率达到3、4、5、6、7、8的离散均匀分布。(掷骰加两个。)如果采用上面概述的Poisson分布的抽样和排名方法,通常将得到5或6。随着样本的增加,中位数的分布将收敛到一半五岁以下半岁。5.5在这里似乎也是一个合理的折衷。


2
F1[0,1]F[0,1]F
ub

好点子。我试图将一些情况分开以澄清这一点。您如何改善对连续性的讨论?将分位数解释为估计量是我回答的重点;没有这些,他们对我来说真的没有意义。
eric_kernfeld

关于后者:分位数不需要估计任何东西。它们本身对描述和可视化数据很有用(通常仅用作描述性统计数据)。关于连续性:我想大多数权威人士都会说所有百分位都存在于离散分布中。坚持不这样做是不必要的复杂性。它也将使大多数软件计算的结果完全神秘,从而为任何数据集愉快地提供从0到1( 1 )的所有分位数。在R,例如,类型quantile(0)

通过讨论,我意识到我不了解离散分布的分位数。我想我应该删除这个答案。
eric_kernfeld

1
人们对此有不同的看法,埃里克。当我的答案有误以致使人误解时,我首先将其删除。如果我在答案的一部分中看到一些潜在的价值,请对其进行编辑以删除(或解释)具有误导性的部分,然后取消删除。其他人只是让事情站起来,在投票中占一席之地。其他人则添加了编辑,暗示读者可能会发现一些误解可能有价值;其他人只是删除。如果您愿意,您甚至可以完全更改答案,有时会这样做。

2

我被告知,在第n个百分位数中的观察值大于所考虑的数据集中的观察值的n%。对我而言,这意味着不存在第0或第100个百分位数。任何观察都不能大于观察值的100%,因为它构成了该观察值的100%(并且类似的逻辑适用于0)。

编辑:就其价值而言,这也与我所遇到的术语的非学术用法一致:“ X 在第n个百分位数中 ”表示该百分位数是组,而不是边界。

不幸的是,我对此没有任何资料可以指出。


6
您对所记得的课程有权威参考吗?请注意,您隐含地将“百分位数”定义为一数字。问题中引用的另一个定义是,百分位数是这些组之间的边界

1
这对我来说没有任何意义,因为假设您的数据是2,2,2,2,2,2,2,2,2,2,2,2,所以一个分位数中的一项等于在一个分位数中左侧的一项先验分位数。因此,第n个分位数中的一项不大于剩余的所有分位数。因此,第n个百分位数的项目不大于数据集中观测值的n%。它是数据集中观察值的> = n%,但不仅仅是>。因此,您可以拥有第100个百分位。.您如何看待这种逻辑?
barlop

4
如果所有值都相同,那么许多定义都会受到压力!
Nick Cox

2
数学上的那些抽象和理想化,而编写软件的那些则需要处理数据的混乱。您知道16个值的示例将由我知道的软件以不同的方式处理,该软件遵循一个规则,即必须对相同的值进行相同的装箱(并且我同意)。我很惊讶您没有为具有15或17个值的数据而烦恼,即使所有值都是不同的,也没有规则可以将数据分成4个大小相等的bin。
Nick Cox

3
零的相似逻辑是什么?“大于零个观察值”是否不等于“等于或小于所有观察值”,即第0个百分位数将是最低的观察值?
ilkkachu

2

还有其他计算百分位数的方法,但并不是唯一的方法。取自此 Source


p pp%28808028

x1xn

nxipi

pi=100(i0.5)n

来自相同注释的示例说明:

在此处输入图片说明

7507

如果您有200个数字,那么将有100个百分位数,但每个百分数都是两个数字组成的组。

没有。

x1x200

100(10.5)200100(20.5)200100(30.5)200...

导致

0.25,0.75,1.25...1,2,3,...


3
第一句看起来不错,和最重要的一个词是,此后这只是一个菜谱仔细解释。关键是有几种配方,大多数(如果不是全部)都有一些可辩驳的逻辑(有时逻辑是使事情尽可能简单)。请参阅CV上许多主题中提到的Hyndman和Fan论文。我怀疑很多人会将您的最后一段作为举报百分位数的方法。
Nick Cox

@Nick Cox感谢您的深刻评论。关于最后一段,我认为当所有观察结果互不相同时,该方法应该可以正常工作。在重复数字的情况下,听起来不太好的同一数字将没有唯一的百分位数。您能否建议如何处理此案。您能否在上一段中指出潜在的陷阱。
天真

1
我认为我不需要或不需要增加期刊文献中已经很好解释的内容。首先,您有一些喜欢的软件。看看它记录了什么,它做了什么。其次,几十年来我一直没有手工计算百分位数,而且我们都不需要。第三,关于最后一段的观点:我想没有人希望告诉我们观察到的数据点是0.25%,0.75%,1.25%...%。人们想要的东西各不相同,但是根据我的经验,最常见的是想要总结,例如1、5、10、25、50、75、90、95、99%点和样本极值。
Nick Cox

1
我刚刚注意到,您断言EDA术语中有0.5,通常称为中位数的p值。不在我的阅读范围内,即使您可以找到令人讨厌的术语示例,因为p值作为观察到的显着性水平具有压倒多数的意义。
Nick Cox

我将仔细阅读您建议的论文。谢谢
天真

0

注意-我会接受别人的回答,而不是我的。但是我确实看到了一些有用的评论,所以我只是写一个提到这些评论的答案。

根据尼克回答前半部分的“ -iles”术语

看来这些术语是模棱两可的,我想(基于对那篇文章的理解),更好的术语是X%点和X%-Y%组。分位数点(四分位数可以为0到4);分位数组,范围从X分位数到Y分位数。

不管采用哪种方式,百分位数都将获得101,尽管有评论表明,该百分位数可以参考101点(我想如果您只计算百分位数,并且只能是整数),但是即使这样,如果说到第一,第二,第三,百分位数或分位数,它是计数中的一个,不能将第一个计数为0,例如,您不能有超过4个四分位数或超过100个百分位数。因此,如果说第一,第二,第三,该术语不能真正地指向点0。如果有人说第0点,那么虽然很明显他们的意思是点0,但我认为他们应该说分位数为0。 0.即使计算机科学家也不会说0。即使他们将第一个项目计为1,如果将其称为项目0,也就是从0开始的索引,而不是计数。

注释中提到“不能为100。99或101,取决于您是否计算最大值和最小值”。我认为在谈论分位数而不是分组时,会出现99或101的情况,尽管我不会说第0位。对于n个项目,索引可能从0 ... n-1开始,并且不会在索引上写第1个,第2个等(除非该索引碰巧将第一个项目索引为1)。但是,以0开头的第一项的索引不是1、2、3计数。例如,索引为0的项目是第一个项目,不会说0并标记第二个项目为第1个项目。


那些背离了明确的历史先例的人引入了任何歧义。在实践中并不难。
Nick Cox

所有数学家都从零开始计数。这个概念很自然,很简单:大声说出“零”一词表明了计数的意图。然后,对要计数的对象,对单词序列“一”,“二”,“三”等进行一些(也许是任意的)一对一分配。这些单词中的最后一个(如果有最后一个)等于集合的基数。这个想法的优点是,当集合中没有元素时,最后一个单词是“零”,这是唯一的正确值。
ub

@whuber,您写着“所有数学家都从零开始计数” <-您认为我在其他地方怎么说?
barlop

“它正在计数,并且第一个不能计数为0”。

1
@whuber可能有很多人,我想很多年前,就像在学习计算机科学时,我有时听到计算机科学家从0开始计数,这是不折不扣的数学家(那不是您的主张或本人),但是经过一番深思后,我得到了更多清楚地认识到,计算机科学家和数学家都从0开始计数。区别在于计算机科学家经常使用索引,而索引将第一个项目索引为0。(但计数仍为1)。
barlop
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.