如何估算合并数据的第三四分位数?


12

是否有任何技术上的技巧来确定第三个四分位数是否属于一个开放区间,而该区间包含的人口超过四分之一(因此我无法关闭区间并使用标准公式)?

编辑

如果我误解了一些东西,我会或多或少提供完整的背景信息。我将数据安排在一个表中,该表有两列,例如6行。每列对应一个间隔(在第一列中)和“属于”该间隔的数量的人口。最后一个间隔是开放的,包括超过25%的人口。所有间隔(最后一个间隔除外)具有相同的范围。

样本数据(用于演示):

Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞)
Column 2:    51,    65,     68,     82,     78,   182 

第一列将被解释为收入水平范围。第二个将被解释为收入属于区间的雇员数。

我正在考虑的标准公式为Q3=xQ3+3N4i=1k1ninQ3rQ3


尝试估计带有合并数据的分位数时,通常的假设是假设容器内的均匀性。但是,当您对数据的分布方式(例如收入,右偏)的了解有所了解时,反映该知识的假设将趋于更好。另一种选择是假设它是平滑的,然后平滑数据(无论是通过KDE还是某种拟合的分布),根据模型重新分配垃圾箱中的点[并可能重新估计(以某种类似EM的方式)拟合,并再次分配到垃圾箱中],然后据此估算分位数。
Glen_b-恢复莫妮卡2014年

Answers:


16

您需要使用某种分布模型来拟合这些合并的数据,因为这是外推到上四分位数中的唯一方法。

一个模型

F01(a,b]F(b)F(a)θ{Fθ}FθL

L(θ)=(Fθ(8)Fθ(6))51(Fθ(10)Fθ(8))65(Fθ()Fθ(16))182

51Fθ(8)Fθ(6)65Fθ(10)Fθ(8)

使模型适合数据

θLL

θ=(μ,σ)

F(μ,σ)(x)=12π(log(x)μ)/σexp(t2/2)dt.

LRlog(L(θ))log(L)Llog(L)

logL <- function(thresh, pop, mu, sigma) {
  l <- function(x1, x2) ifelse(is.na(x2), 1, pnorm(log(x2), mean=mu, sd=sigma)) 
                        - pnorm(log(x1), mean=mu, sd=sigma)
  logl <- function(n, x1, x2)  n * log(l(x1, x2))
  sum(mapply(logl, pop, thresh, c(thresh[-1], NA)))
}

thresh <- c(6,8,10,12,14,16)
pop <- c(51,65,68,82,78,182)
fit <- optim(c(0,1), function(theta) -logL(thresh, pop, theta[1], theta[2]))

θ=(μ,σ)=(2.620945,0.379682)fit$par

检查模型假设

F

predict <- function(a, b, mu, sigma, n) {
  n * ( ifelse(is.na(b), 1, pnorm(log(b), mean=mu, sd=sigma)) 
        - pnorm(log(a), mean=mu, sd=sigma) )

将其应用于数据以获得拟合的或“预测的” bin人口:

pred <- mapply(function(a,b) predict(a,b,fit$par[1], fit$par[2], sum(pop)), 
               thresh, c(thresh[-1], NA))

我们可以绘制数据和预测的直方图,以进行直观比较,如这些图的第一行所示:

直方图

为了比较它们,我们可以计算卡方统计量。通常将其称为卡方分布以评估重要性

chisq <- sum((pred-pop)^2 / pred)
df <- length(pop) - 2
pchisq(chisq, df, lower.tail=FALSE)

0.008768630.40

使用拟合估计分位数

63(μ,σ)(2.620334,0.405454)F75th

exp(qnorm(.75, mean=fit$par[1], sd=fit$par[2]))

18.066317.76

这些过程和此代码通常可以应用。如果感兴趣,可以进一步利用最大似然理论来计算第三四分位数附近的置信区间。


哇谢谢!我必须承认,我没想到会使用如此先进的(至少对我而言)机械来找到解决方案。
atad 2012年

机器不一定是先进的或复杂的,但是无论您做什么,都应遵循本示例的相同常规思路:假设有关收入分配的某些信息,使用其拟合数学模型,检查模型的合理性,以及是否合理的拟合,用它来计算四分位数。在此过程中,请使用图形方法,因为它们可以揭示有趣的模式。(在这里,感兴趣的是,有来自对数正态分布明显偏离在较低收入阶层:我不知道为什么发生,什么可能说这个群体。)
whuber

+1,好答案。看来我还必须学习R。
dav

8

评论太久了:

whubers的答案与任何答案一样好,但是他的对数正态模型确实假定右偏。对于一般人群的收入而言,这可能是现实的,但对于特定职等的单个雇主而言,可能并非如此。

68645017.5

8017.3

17


1
16
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.