Questions tagged «quantiles»

分布的分位数指的是其累积分布函数上的点。一些常见的分位数是四分位数和百分位数。


2
在R中查找四分位数
我在学习R的同时正在阅读统计教科书,并且在以下示例中遇到了绊脚石: 看完之后,?quantile我尝试使用以下方法在R中重新创建它: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% 50% 75% 100% 6.0 9.5 16.0 28.0 104.0 鉴于文本和R具有不同的结果,我收集到R在第一和第四四分位数的计算中利用了中位数。 题: 在计算第一和第三四分位数时是否应包括中位数? 更具体地说,教科书或R是否具有此正确性?如果教科书中有此正确说明,是否有办法在R中正确实现? 提前致谢。
33 r  quantiles 

5
有99个百分点还是100个百分点?它们是一组数字,还是指向单个数字的分隔线或指针?
有99个百分点还是100个百分点?它们是数字组,分隔线还是指向单个数字的指针? 我想同样的问题将适用于四分位数或任何分位数。 我已经读到,给定n个项目,特定百分位数(p)处的数字的索引为 i = (p / 100) * n 这对我来说意味着有100个百分位数..因为假设您有100个数字(i = 1至i = 100),则每个数字都有一个索引(1至100)。 如果您有200个数字,那么将有100个百分位数,但每个百分数都是两个数字组成的组。或100个分频器(不包括最左或最右分频器'cos),否则您将获得101个分频器。或指向单个数字的指针,因此第一个百分位数将引用第二个数字(1/100)* 200 = 2,而第百个百分位数将引用第200个数字(100/100)* 200 = 200 我有时听说有99个百分位。 谷歌显示了一个牛津词典,它用百分位数表示:“可以根据特定变量的值的分布将总体分为100个相等的组。” “随机变量的99个中间值中的每个中间值将频率分布分为100个这样的组。” 维基百科说“第20个百分位是可以找到20%的观察值的值”,但实际上是指“可以找到20%的观察值以下或等于该值的值”,即“其中20个百分率的值值的%等于<=”。如果只是<而不是<=,则根据该推理,第100个百分位数将是一个值,低于该值可能会找到该值的100%。我已经听说过,不能有百分之一百的说法,因为您不能有一个数字,该数字下有100%的数字。但是我认为也许您无法拥有百分位数的说法是不正确的,并且基于这样的错误,即百分位数的定义涉及<= not <。(或> =不是>)。因此,百分之一百将是最终数字,并且>
27 quantiles 

2
分位数回归:损失函数
我试图理解分位数回归,但是让我受苦的一件事是损失函数的选择。 ρτ(u )= u (τ− 1{ u &lt; 0 })ρτ(ü)=ü(τ-1个{ü&lt;0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) 我知道的期望最小值等于位数,但是从此功能开始的直观原因是什么?我看不到最小化此功能与分位数之间的关系。有人可以向我解释吗?ρτ(y− u )ρτ(ÿ-ü)\rho_\tau(y-u)τ%τ%\tau\%

7
动态监控分位数的算法
我想估计一些数据的分位数。数据是如此之大,以致无法容纳在内存中。而且数据不是静态的,新数据不断涌现。有人知道有什么算法可以用非常有限的内存和计算来监视到目前为止观察到的数据的分位数吗?我发现P2算法很有用,但是对于我的数据(尾部分布非常繁重)来说,效果并不理想。

4
如何确定多元正态分布的分位数(等值线)
我对如何计算多元分布的分位数感兴趣。在图中,我绘制了给定单变量正态分布的5%和95%分位数(左)。对于正确的多元正态分布,我想象一个类似物将是一个等密度线,它包围密度函数的基数。以下是我尝试使用软件包计算此结果的示例mvtnorm-但未成功。我想可以通过计算多元密度函数结果的等值线来做到这一点,但是我想知道是否还有另一种选择(例如,qnorm)。谢谢你的帮助。 例: mu &lt;- 5 sigma &lt;- 2 vals &lt;- seq(-2,12,,100) ds &lt;- dnorm(vals, mean=mu, sd=sigma) plot(vals, ds, t="l") qs &lt;- qnorm(c(0.05, 0.95), mean=mu, sd=sigma) abline(v=qs, col=2, lty=2) #install.packages("mvtnorm") require(mvtnorm) n &lt;- 2 mmu &lt;- rep(mu, n) msigma &lt;- rep(sigma, n) mcov &lt;- diag(msigma^2) mvals &lt;- expand.grid(seq(-2,12,,100), seq(-2,12,,100)) mvds &lt;- …

7
根据三个百分点估算分布
如果我只知道三个百分点,可以使用哪些方法来推断分布? 例如,我知道在某个数据集中,第五个百分位数是8,135,第50个百分位数是11,259,第95个百分位数是23,611。我希望能够从任何其他数字提高到其百分位数。 这不是我的数据,而这些都是我的全部统计数据。很明显,分布不正常。我仅有的其他信息是,该数据代表政府为不同学区提供的人均经费。 我对统计数据了解得足够多,无法知道这个问题没有确定的解决方案,但是对于知道如何找到正确的猜测还不够。 对数正态分布是否合适?我可以使用哪些工具执行回归(或者我需要自己进行回归)?

2
是否可以累积一组描述大量样本的统计信息,以便随后生成箱线图?
我必须马上我是一个执业软件开发者,而不是一个统计学家澄清,而我的大学统计类是一个很长的时间以前... 就是说,我想知道是否存在一种用于累积描述性统计信息的方法,然后可以使用该方法来生成箱线图,而这并不需要存储一堆单独的样本? 我想做的是在复杂的多队列过程中生成队列服务时间的图形摘要。过去我曾经使用过一个名为tnftools的程序包,该程序包可以累积大量样本,然后将其后处理为响应时间和异常值的图表。但是tnftools不适用于当前平台。 理想情况下,我希望能够在流程运行时“即时”累积一组描述性统计信息,然后提取数据以按需进行分析。但是我不能简单地让进程积累样本,因为这样做会涉及内存/ IO对系统性能产生无法接受的影响。

5
为什么要使用极值理论?
我来自土木工程学院,在该学院中,我们使用极值理论(例如GEV分布)来预测某些事件的值,例如最大风速,即风速的 98.5%会降低到的值。 我的问题是,为什么要使用这样的极值分配?如果仅使用总体分布并获得98.5%概率的值,会不会更容易?

3
计算R中的百分位等级[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 3年前关闭。 如何将新变量添加到数据框架中,该变量将是变量之一的百分等级?我可以在Excel中轻松完成此操作,但我真的很想在R中执行此操作。 谢谢
18 r  quantiles 

2
计算第95个百分位数:比较正态分布,R Quantile和Excel方法
我试图在以下数据集中计算第95个百分位数。我遇到了一些这样做的在线参考。 方法1:基于样本数据 在第一个告诉我获得TOP 95 Percent的数据集,然后选择MIN或AVG生成的一组。对以下数据集执行此操作即可得到: AVG: 29162 MIN: 0 方法2:假设正态分布 所述第二个说,第95百分位是平均约两个标准差以上(我明白)和I进行的: AVG(Column) + STDEV(Column)*1.65: 67128.542697973 方法3:R Quantile 我曾经R获得第95个百分位: &gt; quantile(data$V1, 0.95) 79515.2 方法4:Excel的方法 最后,我遇到了这个,它解释了Excel是如何做到的。该方法的摘要如下: 给定一组N有序值{v[1], v[2], ...}和要求计算pth百分位数,请执行以下操作: 计算 l = p(N-1) + 1 拆分l成整数和小数成分即l = k + d 将所需值计算为 V = v[k] + d(v[k+1] - v[k]) 这种方法给我 79515.2 尽管我相信R的值是正确的值,但没有一个值匹配(我也从ecdf图中观察到了它)。我的目标是从给定的数据集中手动计算第95个百分位数(仅使用AVG和STDEV函数),并且不确定是否会发生什么。有人可以告诉我我要去哪里错吗? 93150 …
17 r  dataset  quantiles  sql 

5
均值绝对偏差和大数据集的在线算法
我有一个小问题使我感到恐惧。我必须为多元时间序列的在线获取过程编写程序。在每个时间间隔(例如1秒),我都会得到一个新样本,该样本基本上是大小为N的浮点向量。我需要做的操作有些棘手: 对于每个新样本,我计算该样本的百分位数(通过对向量进行归一化,以使元素总和为1)。 我以相同的方式计算平均百分比矢量,但使用过去的值。 对于每个过去的值,我使用在步骤2中计算的全局平均百分比矢量来计算与该样本相关的百分比矢量的绝对偏差。这样,绝对偏差始终为0(当矢量等于平均值​​)之间的数字。向量)和2(当完全不同时)。 使用所有先前样本的偏差平均值,我计算出平均绝对偏差,该平均值也是0到2之间的一个数字。 我使用平均绝对偏差来检测新样本是否与其他样本兼容(通过将其绝对偏差与在步骤4计算的整个集合的平均绝对偏差进行比较)。 由于每次收集一个新样本时,全局平均值都会发生变化(因此平均绝对偏差也会发生变化),有没有一种方法可以计算此值而无需多次扫描整个数据集?(一次用于计算总体平均百分比,一次用于收集绝对偏差)。好的,我知道在不扫描整个集合的情况下计算全局平均值绝对容易,因为我只需要使用一个临时矢量来存储每个维的和,那么平均绝对偏差呢?它的计算包括abs()运算符,因此我需要访问所有过去的数据! 谢谢你的帮助。



1
我们什么时候使用密义数字和中间数字而不是分位数和中间数字?
我无法在Wikipedia或Wolfram Mathworld上找到密义或中间的定义,但是在Bílková,D.和Mala,I.(2012),“ 对收入分配建模时应用L-矩方法的应用 ”中给出了以下解释在捷克共和国 ”,奥地利统计杂志,第41卷第 2期,第125-132页。 中间值为(样本)的密不可分值,就像样本中位数等于样本分位数)的值一样。样品密实度以及样品分位数均基于订购的样品。首先,对有序样本中观测值的累积总和进行评估。然后,对于给定的百分比,,将零位定义为分析变量的值,该变量将有序样本中的所有观测值分为两部分:较小或相等的观测值之和为占总观测值的,大于总观测值的表示该总和的剩余。50 %p 0 &lt; p &lt; 100 p %p %(100 - p )%50%50%50\%50%50%50\%ppp0&lt;p&lt;1000&lt;p&lt;1000<p<100p%p%p\%p%p%p\%(100−p)%(100−p)%(100-p)\% 什么时候将这些用作位置度量而不是更常规的中位数或其他分位数有意义?该论文给出了一种可能的情况,即家庭收入: 从这个定义可以得出,中间收入可以用作收入水平的合理特征,因为收入较低或等于中间收入的家庭将获得样本中总收入的一半,收入较高的家庭比接受另一半的内侧 在这种情况下,发现家庭收入中位数为117,497 捷克克朗(即,有一半家庭的收入高于该水平,另一半家庭的收入高于上述水平),而家庭中位收入为133,930捷克克朗(收入高于该数字的家庭则获得了一半的收入)总收入)。请注意,这种比较并不一定反映家庭收入的偏度,甚至不一定是其不均匀性:即使家庭收入是均匀分配的,中位数仍将高于中位数。据我了解的定义,如果所有家庭都获得相同的收入,则中位数将仅等于中位数。 那么,在这种情况下,是否有任何特定的原因更喜欢内侧,或者至少将其用作辅助措施?中位数和中位数之间的比较究竟告诉我们什么?出于我刚刚指出的原因,中间似乎并不能直接与其他集中趋势指标相提并论。在其他情况下,中间/义齿是否被广泛使用或被视为特别有用?在样本研究论文中使用它们的实际例子将是非常受欢迎的,而在更广泛的背景下直观证明它们可能有用的想法会更好。 它必须要求总计和小计是有意义的-似乎与金钱有关的东西,以及“饼”的分配方式-但即使加法动作也仅对某些数量有意义。对于密集而不是广泛的属性(例如密度或温度),任何形式的求和在物理上都是没有意义的。在我看来,广泛的属性是必要的,但不足以使密宗有所帮助,因为我可以想象一位运输分析师对所运送的货物的重量有限制,因此所有货物(按重量计)的50%它承载的重量等于或大于此重量,但我无法想象生态学家会对new的长度感兴趣,以至于所有new的总长度的50%是由该长度或更长的new贡献的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.