Questions tagged «quantiles»

分布的分位数指的是其累积分布函数上的点。一些常见的分位数是四分位数和百分位数。

2
在线估计四分位数而不存储观测值
我需要在不存储观测值的情况下,根据大量数据实时计算四分位数(Q1,中位数和Q3)。我首先尝试了P平方算法(Jain / Chlamtac),但对它却不满意(CPU使用量过多,至少对于我的数据集的精度没有把握)。 我现在使用FAME算法(Feldman / Shavitt)动态估算中值,然后尝试推导该算法以计算Q1和Q3: M = Q1 = Q3 = first data value step =step_Q1 = step_Q3 = a small value for each new data : # update median M if M > data: M = M - step elif M < data: M = M + step …

1
来自正态分布组合的分位数
我了解不同年龄儿童的人体测量尺寸分布(例如肩跨度)。对于每个年龄和维度,我都有均值,标准差。(我也有八个分位数,但我认为我无法从中得到想要的东西。) 对于每个维度,我想估算长度分布的特定分位数。如果我假设每个维度都是正态分布的,则可以使用均值和标准偏差来实现。我是否可以使用一个漂亮的公式来获取与特定分位数的分布相关的值? 反向操作非常简单:对于特定值,对于每个正态分布(年龄),将面积都设置在该值的右侧。对结果求和,然后除以分布数。 更新:这是图形形式的相同问题。假设每个彩色分布都是正态分布。 而且,很明显,我可以尝试一堆不同的长度,并不断更改它们,直到获得与我的精度足够接近所需分位数的长度为止。我想知道是否有比这更好的方法。如果这是正确的方法,那么它有名字吗?

1
定义加权样本的分位数
我有一个加权样本,我希望为其计算分位数。1个 理想情况下,在权重相等的情况下(无论是否等于1),结果将与scipy.stats.scoreatpercentile()和的结果一致quantile(...,type=7)。 一种简单的方法是使用给定的权重“乘以”样本。这样可以有效地在权重> 1的区域中提供局部“平坦”的ecdf,这在样本实际上是次采样时在直觉上似乎是错误的方法。特别是,这意味着权重均等于1的样本与权重均等于2或3的样本具有不同的分位数。(但是,请注意,[1]中引用的论文确实使用了这种方法。) http://en.wikipedia.org/wiki/Percentile#Weighted_percentile提供了加权百分比的另一种表示方式。在此公式中尚不清楚是否应首先合并具有相同值的相邻样本并对其权重求和,无论如何quantile(),在未加权/相等加权的情况下,其结果似乎与R的默认类型7不一致。关于分位数的维基百科页面根本没有提到加权情况。 R的“类型7”分位数函数有加权概括吗? [使用Python,但实际上只是在寻找一种算法,因此任何语言都可以使用] 中号 [1]权重是整数;权重是在http://infolab.stanford.edu/~manku/papers/98sigmod-quantiles.pdf中描述的在“折叠”和“输出”操作中组合的缓冲区的权重。本质上,加权样本是整个未加权样本的子采样,子样本中的每个元素x(i)代表整个样本中的weight(i)元素。

2
“百分位数”的定义
我现在正在阅读PMT Education撰写的有关生物统计学的注释,请注意第2.7节中的以下句子: 以质量计第50个百分点出生的婴儿比50%的婴儿重。 以质量计在第25个百分点出生的婴儿比75%的婴儿重。 以质量计在第75个百分点出生的婴儿比25%的婴儿重。 但据我所知,按质量计算在第25个百分点出生的婴儿应该比25%的婴儿重。在此领域中,“百分位数”是否有特殊定义,或者我误以为是非母语使用者的句子?

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
为什么使用康沃尔-菲舍尔扩展而不是样本分位数?
在康沃尔-Fisher展开提供了一种估算基于矩分布的分位数的方式。(从这个意义上说,我认为它是对Edgeworth Expansion的补充,后者基于矩来估计累积分布。)我想知道在哪种情况下,人们更愿意将Cornish-Fisher扩展用于实证研究而不是样本分位数,反之亦然。一些猜测: 通过计算,可以在线计算样本矩,而在线估计样本分位数则很困难。在这种情况下,CF“获胜”。 如果一个人有能力预测力矩,那么CF将允许人们利用这些预测来进行分位数估计。 CF扩展可能会给出观察值范围之外的分位数估计,而样本分位数可能不会。 我不知道如何围绕CF给出的分位数估计来计算置信区间。在这种情况下,样本分位数“获胜”。 似乎CF膨胀需要一个来估计分布的多个较高矩。这些估计中的误差可能以CF扩展具有比样本分位数更高的标准误差的方式复合。 还有其他吗?是否有人有使用这两种方法的经验?

1
期望值是分位数的函数吗?
我想知道哪里有一个通用公式将连续随机变量的期望值与相同rv的分位数相关联的期望值定义为: 并将分位数定义为: 对于。È (X )= ∫ X d ˚F X(X )Q p X = { X :˚F X(X )= p } = ˚F - 1 X(p )p ∈ (0 ,1 )XXX Ë(X)= ∫X dFX(x )Ë(X)=∫XdFX(X)E(X) = \int x dF_X(x) 问pX= { x :FX(x )= p } = F− 1X(p )问Xp={X:FX(X)=p}=FX-1个(p)Q^p_X …

1
参考:逆cdf的尾巴
我几乎可以肯定,我已经在统计数据中看到以下结果,但是我不记得在哪里。 如果是一个正随机变量,并且则到,其中是 cdf 。È(X )&lt; ∞ ε ˚F - 1(1 - ε )→ 0 ε → 0 + ˚F XXXXE(X)&lt;∞E(X)&lt;∞\mathbb{E}(X)<\inftyεF−1(1−ε)→0εF−1(1−ε)→0\varepsilon F^{-1}(1-\varepsilon) \to 0ε→0+ε→0+\varepsilon\to 0^+FFFXXX 通过使用等式并通过考虑在被积体曲线下的区域的处的水平切口,可以很容易地从几何上看出这一点。ε 1 - ˚FE(X)=∫1−FE(X)=∫1−F\mathbb{E}(X)=\int 1-Fεε\varepsilon1−F1−F1-F 您知道此结果的参考以及它是否有名称吗?

2
创建增长图表的最佳方法
我必须为非负数,连续数和非负数的健康变量创建5至15岁(仅5,6,7等;没有2.6年这样的分数)的图表(类似于生长图表)。 50-150的范围(只有少数几个值不在此范围内)。我必须创建第90、95和99个百分位曲线,并为这些百分位创建表。样本大小约为8000。 我检查并发现以下可能的方法: 找到分位数,然后使用黄土法从这些分位数中获得平滑曲线。可以通过“ span”参数调整平滑度。 使用LMS(Lambda-Mu-Sigma)方法(例如,在R中使用gamlss或VGAM软件包)。 使用分位数回归。 使用每个年龄组的平均值和SD来估算该年龄段的百分位数,并创建百分位数曲线。 最好的方法是什么?“最好”是指理想的方法,它是创建此类增长曲线的标准方法,并且将为所有人所接受。或者是一种更容易实现的方法,它可能会有一些限制,但是是可以接受的,更快的方法。(例如,对百分比值使用黄土比使用gamlss软件包的LMS快得多)。 同样,该方法的基本R代码将是什么。 谢谢你的帮助。

6
Excel中的四分位数
我对基本统计中通常使用的四分位数的定义感兴趣。我有一本Stat 101类型的书,它只是给出了一个直观的定义。“大约四分之一的数据落在第一个四分位数上或以下...”但是,它给出了一个示例,其中该示例计算了该组数据的Q1,Q2和Q3 5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37 由于有15条数据,因此选择15作为中位数Q2。然后,它将剩余的数据分为两半,分别为5至14和16至37。它们每个包含7个数据,它们分别将这些集合10和18的中位数分别作为Q1和Q3。这就是我自己计算的方式。 我看了维基百科的文章,它提供了两种方法。一个人同意上述观点,有人说您还可以在两个集合中都包含15个中位数(但是,如果数据点为偶数,则如果中位数是两个中间数的平均值,则不包括在内)。这对我来说很有意义。 但是,然后我检查了Excel以查看Excel如何计算它。我正在使用Excel 2010,它具有3种不同的功能。四分位数在2007年及以前的版本中可用。似乎他们希望您在2010年停止使用此功能,但仍然可用。Quartile.Inc是新的,但据我所知,它与Quartile完全一致。并且,还有Quartile.Exc。我认为最后两个都是2010年的新功能。这次,我只是尝试使用整数1、2、3,...,10。我期望Excel给出5.5的中位数,3的Q1和8的Q3。因为Wikipedia上的两种方法都会给出这些答案,因为中位数是中间两个数字的平均值。Excel给 quartile number, Quartile.Inc, Quartile.Exc 1, 3.25, 2.75 2, 5.5, 5.5 3, 7.75, 8.25 这些都不符合我之前所说的。 Excel帮助文件中的描述为: Quartile.Inc-基于0..1(含0)的百分位值返回数据集的四分位数。 Quartile.Exc-基于0..1(不包括)的百分位值返回数据集的四分位数。 谁能帮助我了解Excel正在使用的此定义?
10 excel  quantiles 

4
为什么1个中位数低于另一个中位数的事实并不意味着第1组中的大多数都少于第2组中的大多数?
我认为下面的箱线图可以解释为“大多数男人比大多数女人快”(在此数据集中),主要是因为中位男性的时间低于中位女性的时间。但是有关R和统计知识测验的EdX课程告诉我,这是不正确的。请帮助我理解为什么我的直觉是不正确的。 这是问题: 让我们考虑一个2002年纽约马拉松比赛的完成者的随机样本。可以在UsingR包中找到此数据集。加载库,然后加载nym.2002数据集。 library(dplyr) data(nym.2002, package="UsingR") 使用箱线图和直方图比较男性和女性的完成时间。以下哪项最能描述差异? 男性和女性具有相同的分布。 大多数男性比大多数女性快。 男性和女性的偏斜分布与前者相似,向左偏移20分钟。 两种分布的正态分布均相差约30分钟。 以下是纽约市男女马拉松比赛时间,以分位数,直方图和方框图的形式: # Men's time quantile 0% 25% 50% 75% 100% 147.3333 226.1333 256.0167 290.6375 508.0833 # Women's time quantile 0% 25% 50% 75% 100% 175.5333 250.8208 277.7250 309.4625 566.7833


1
重尾分布阶数统计量的渐近正态性
背景: 我有一个要在尾部分布较大的情况下建模的样本。我有一些极端的值,以至于观察值的分布相对较大。我的想法是使用广义Pareto分布对此建模,所以我做到了。现在,我的经验数据的0.975分位数(约100个数据点)低于我拟合到我的数据的广义帕累托分布的0.975分位数。我想,现在有什么方法可以检查这种差异是否值得担心吗? 我们知道分位数的渐近分布为: 因此,我认为通过尝试在广义Pareto分布的0.975分位数附近绘制95%的置信带,并使用与我拟合数据时得到的参数相同的参数来激发我的好奇心是个好主意。 如您所见,我们在这里使用一些极限值。而且由于分布是如此之大,因此密度函数的值非常小,使用上面的渐近正态性公式的方差使置信带达到的数量级:± 1012±1012\pm 10^{12} ± 1.96 0.975 * 0.025Ñ (˚Fg ^ Pd(q0.975))2±1.960.975∗0.025ñ(FGPd(q0.975))2\pm 1.96\frac{0.975*0.025}{n({f_{GPD}(q_{0.975})})^2} 因此,这没有任何意义。我的分布只有积极的结果,而置信区间包括负值。所以这里发生了一些事情。如果我计算0.5分位数附近的谱带,则谱带并不是那么大,但仍然很大。 我继续看一下如何与另一个分布,即分布一起使用。从分布模拟观测值,并检查分位数是否在置信带内。我这样做了10000次,以查看置信区间内模拟观察值的0.975 / 0.5分位数的比例。ñ(1 ,1 )ñ(1个,1个)\mathcal{N}(1,1)n = 100ñ=100n=100ñ(1 ,1 )ñ(1个,1个)\mathcal{N}(1,1) ################################################ # Test at the 0.975 quantile ################################################ #normal(1,1) #find 0.975 quantile q_norm&lt;-qnorm(0.975, mean=1, sd=1) #find density value at 97.5 quantile: f_norm&lt;-dnorm(q_norm, mean=1, sd=1) …

1
从特定分位数计算总和的分位数
假设 NNN 独立随机变量 X1,...,XNX1,...,XNX_1, ..., X_N 在特定水平上的分位数 αα\alpha 通过数据估算可知: α=P(X1&lt;q1)α=P(X1&lt;q1)\alpha = P(X_1 < q_1),..., α=P(XN&lt;qN)α=P(XN&lt;qN)\alpha = P(X_N < q_N)。现在让我们定义随机变量ZZZ 作为总和 Z=∑Ni=1XiZ=∑i=1NXiZ = \sum_{i=1}^N X_i。有没有一种方法可以计算水平上总和的分位数的值αα\alpha, 那是, qzqzq_z 在 α=P(Z&lt;qZ)α=P(Z&lt;qZ)\alpha = P(Z < q_Z)? 我认为在某些情况下,例如 XiXiX_i 遵循高斯分布 ∀i∀i\forall i 这很简单,但对于这种情况的分布情况,我不确定 XiXiX_i未知。有任何想法吗?
9 quantiles 

1
使用自举获得1%的抽样分布
我有一个人口样本(大小为250)。我不知道人口的分布。 主要问题:我想要对人口的第一个百分点进行点估计,然后我希望在我的点估计周围有95%的置信区间。 我的估计值将是样本1st- percentile。我将其表示为。XXx 之后,我尝试围绕点估计值建立置信区间。我不知道在这里使用引导是否有意义。我对Bootstrap缺乏经验,所以请谅解如果我没有使用适当的术语等。 这是我尝试的方法。我从原始样本中抽取了1000个随机样本进行替换。我得到1 日从他们每个人的百分位。因此,我有1000点- “1 日 -percentiles”。我看一下这1000点的经验分布。我表示它的平均值。我将“偏差”表示为:。我走2.5 个百分位和97.5 个百分点的1000点,以获得较低和较高端我所说周围1 95%的置信区间ST百分位原始样品。我表示这些点和。X米Ë 一个ÑX米Ë一个ñx_{mean}偏差=X米Ë 一个Ñ- x偏压=X米Ë一个ñ-X\text{bias}=x_{mean}-xX0.025X0.025x_{0.025}X0.975X0.975x_{0.975} 最后剩下的步骤是适应这个置信区间是围绕1 日百分位的的人口,而不是周围的1 日百分位的的原始样本。因此,我将作为下端,将作为上端人口的第一个百分位数的点估计值附近的95%置信区间的概率。这是我一直在寻找的时间间隔。X - 偏见- (X米Ë 一个Ñ-X0.025)X-偏压-(X米Ë一个ñ-X0.025)x-\text{bias}-(x_{mean}-x_{0.025})X - 偏压+ (X0.975-X米Ë 一个Ñ)X-偏压+(X0.975-X米Ë一个ñ)x-\text{bias}+(x_{0.975}-x_{mean}) 一个关键点,在我看来,是它是否有意义的使用引导1 日百分值是相当接近人口的未知潜在分布的尾部。我怀疑这可能有问题;考虑使用引导程序在最小(或最大)附近建立置信区间。 但是,也许这种方法有缺陷吗?请告诉我。 编辑: 转念一想这个问题有点多,我看到我的解决方案意味着:经验1 日百分原始样品的可能是1的偏估计ST百分点的人口。如果是这样,则应该对点估计值进行偏差调整:。否则,偏差调整后的置信区间将与偏差未经调整的点估计不兼容。我需要调整点估计和置信区间,或者都不调整。X - 偏置X-偏压x-\text{bias} 另一方面,如果我不允许估计有偏差,则不必进行偏差调整。也就是说,我将作为点估计,将作为下限,将作为95%的上限。置信区间。我不确定这个间隔是否合理...XXxx − (X米Ë 一个Ñ-X0.025)X-(X米Ë一个ñ-X0.025)x-(x_{mean}-x_{0.025})x + (X0.975-X米Ë 一个Ñ)X+(X0.975-X米Ë一个ñ)x+(x_{0.975}-x_{mean}) 所以,这有什么意义假设样品1 日百分比是人口1的偏估计ST百分?如果不是,我的替代解决方案是否正确?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.