Questions tagged «median»

中位数是数据或概率分布所占的一半以下的值-当样本数量为奇数时,中位数是有序样本的“中间”值。

6
中位数是“均值”的某种概括的均值类型吗?
“均值”的概念远远超出了传统的算术平均值。它是否延伸到包括中位数?类推, 原始数据⟶ID原始数据⟶意思原始均值 ⟶ID− 1算术平均值原始数据⟶收据倒数 ⟶意思倒数⟶收据− 1谐波均值原始数据⟶日志日志 ⟶意思平均对数⟶日志− 1几何平均数原始数据⟶广场方格 ⟶意思均方⟶广场− 1均方根原始数据⟶秩等级 ⟶意思平均等级⟶秩− 1中位数原始数据⟶ID原始数据⟶意思原始均值⟶ID-1个算术平均值原始数据⟶收据倒数⟶意思平均倒数⟶收据-1个谐波均值原始数据⟶日志日志⟶意思平均对数⟶日志-1个几何平均数原始数据⟶广场方格⟶意思均方根⟶广场-1个均方根原始数据⟶秩等级⟶意思平均等级⟶秩-1个中位数 \text{raw data} \overset{\text{id}}{\longrightarrow} \text{raw data} \overset{\text{mean}}{\longrightarrow} \text{raw mean} \overset{\text{id}^{-1}}{\longrightarrow} \text{arithmetic mean} \\ \text{raw data} \overset{\text{recip}}{\longrightarrow} \text{reciprocals} \overset{\text{mean}}{\longrightarrow} \text{mean reciprocal} \overset{\text{recip}^{-1}}{\longrightarrow} \text{harmonic mean} \\ \text{raw data} \overset{\text{log}}{\longrightarrow} \text{logs} \overset{\text{mean}}{\longrightarrow} \text{mean log} \overset{\text{log}^{-1}}{\longrightarrow} \text{geometric mean} \\ \text{raw data} \overset{\text{square}}{\longrightarrow} \text{squares} …
20 mean  average  median 

2
为什么将MAE最小化会导致预测中位数而不是均值?
摘自Rob J Hyndman和George Athanasopoulos的《预测:原理和实践》教科书,特别是准确性测量部分: 最小化MAE的预测方法将导致对中位数的预测,而最小化RMSE则将导致对均值的预测 有人可以对为什么将MAE最小化导致预测中位数而不是均值给出直观的解释吗?在实践中这意味着什么? 我问一个客户:“对于您来说,使平均预测更准确或避免非常不准确的预测对您而言,更重要的是什么?” 他说,使均值预测更准确具有更高的优先级。因此,在这种情况下,我应该使用MAE还是RMSE?在阅读此引文之前,我相信MAE在这种情况下会更好。现在我怀疑。
19 forecasting  mean  median  rms  mae 

4
平均值=中位数是否意味着单峰分布是对称的?
对于单峰分布,如果均值=中值,那么说分布是对称的就足够了吗? 维基百科在平均值和中位数之间的关系中说: “如果分布是对称的,则均值等于中值,并且分布将具有零偏度。此外,如果分布是单峰的,则均值=中值=模式。这就是抛硬币或系列1,2,3,4,...,但是,请注意,相反的情况通常并不正确,即零偏度并不意味着均值等于中位数。” 但是,(对我而言)收集我需要的信息不是很简单。请帮忙。

4
均值和中值属性
有人可以向我解释清楚将两个陈述(a)和(b)链接在一起的数学逻辑吗?让我们有一组值(一些分布)。现在, a)中位数不取决于每个值[它仅取决于一个或两个中间值];b)中位数是从中得出的最小绝对偏差之和的轨迹。 与此相反, a)(算术)均值取决于每个值;b)均值是与之最小平方和偏差的轨迹。 到目前为止,我对它的理解是直观的。


2
对于什么(对称)分布,样本意味着比样本中位数更有效的估计器?
我一直认为,样本中位数比样本均值对集中趋势的度量更为可靠,因为它忽略了离群值。因此,我很惊讶地得知(在另一个问题中),对于从正态分布中抽取的样本,样本均值的方差小于样本中位数的方差(至少对于大)。nñn 我从数学上理解为什么这是真的。有没有一种“哲学的”方式看待这一点,从而有助于直觉何时使用中位数而不是其他分布的均值? 是否有数学工具可以帮助快速回答特定分布的问题?

7
中位数比平均值还公平吗?
我最近阅读了有关建议,您通常不应使用中位数来消除异常值。示例:以下文章 http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/ 目前有16条评论: review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1) summary(review) ## "ordinary" summary Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 3.750 5.000 4.062 5.000 5.000 因为他们使用平均数,所以该文章获得4星,但是如果使用中位数,它将获得5星。 中位数不是“更公平”的法官吗? 实验表明,中位数误差始终大于平均值。中位数更糟吗? library(foreach) #the overall population of bookjudgments n<-5 p<-0.5 expected.value<-n*p …
17 mean  median  average 

3
是否有多个“中位数”公式?
在我的工作中,当个人引用数据集的“平均值”值时,他们通常是指算术平均值(即“平均值”或“期望值”)。如果我提供了几何平均值,人们可能会认为我是在冷嘲热讽或无助,因为“均值”的定义是事先已知的。 我正在尝试确定数据集的“中位数”是否有多个定义。例如,由同事提供的用于查找元素数为偶数的数据集的中位数的定义之一是: 算法“ A” 将元素数除以2,向下舍入。 该值是中位数的指数。 即对于以下集合,中位数为5。 [4, 5, 6, 7] 尽管四舍五入方面似乎有些武断,但这似乎是有道理的。 算法“ B” 无论如何,另一位同事提出了一种单独的算法,该算法在他的统计资料教科书中(需要获得名称和作者): 将元素数除以2,并保留四舍五入和四舍五入的整数的副本。他们的名字n_lo和n_hi。 采取在元素的算术平均值n_lo和n_hi。 即对于以下集合,中位数为(5+6)/2 = 5.5。 [4, 5, 6, 7] 但是,这似乎是错误的,因为5.5在这种情况下,中间值实际上不在原始数据集中。当我们在某些测试代码中将算法“ A”换成“ B”时,它就破烂了(正如我们预期的那样)。 题 这两种计算数据集中位数的方法是否有正式的“名称”?即“两个中位数中的较少者”与“平均中间元素并制作新数据中位数”?

2
当中位数相等时,为什么Mann–Whitney U检验显着?
我收到了我不理解的曼惠特尼等级测试结果。这两个总体的中位数相同(6.9)。每个群体的较高和较低分位数为: 6.64和7.2 6.60和7.1 比较这些总体的测试得出的p值为0.007。这些人群有何显着不同?是由于中位数的价差引起的吗?比较2的箱线图显示,第二个异常值远大于第一个异常值。感谢您的任何建议。

1
我们什么时候使用密义数字和中间数字而不是分位数和中间数字?
我无法在Wikipedia或Wolfram Mathworld上找到密义或中间的定义,但是在Bílková,D.和Mala,I.(2012),“ 对收入分配建模时应用L-矩方法的应用 ”中给出了以下解释在捷克共和国 ”,奥地利统计杂志,第41卷第 2期,第125-132页。 中间值为(样本)的密不可分值,就像样本中位数等于样本分位数)的值一样。样品密实度以及样品分位数均基于订购的样品。首先,对有序样本中观测值的累积总和进行评估。然后,对于给定的百分比,,将零位定义为分析变量的值,该变量将有序样本中的所有观测值分为两部分:较小或相等的观测值之和为占总观测值的,大于总观测值的表示该总和的剩余。50 %p 0 &lt; p &lt; 100 p %p %(100 - p )%50%50%50\%50%50%50\%ppp0&lt;p&lt;1000&lt;p&lt;1000<p<100p%p%p\%p%p%p\%(100−p)%(100−p)%(100-p)\% 什么时候将这些用作位置度量而不是更常规的中位数或其他分位数有意义?该论文给出了一种可能的情况,即家庭收入: 从这个定义可以得出,中间收入可以用作收入水平的合理特征,因为收入较低或等于中间收入的家庭将获得样本中总收入的一半,收入较高的家庭比接受另一半的内侧 在这种情况下,发现家庭收入中位数为117,497 捷克克朗(即,有一半家庭的收入高于该水平,另一半家庭的收入高于上述水平),而家庭中位收入为133,930捷克克朗(收入高于该数字的家庭则获得了一半的收入)总收入)。请注意,这种比较并不一定反映家庭收入的偏度,甚至不一定是其不均匀性:即使家庭收入是均匀分配的,中位数仍将高于中位数。据我了解的定义,如果所有家庭都获得相同的收入,则中位数将仅等于中位数。 那么,在这种情况下,是否有任何特定的原因更喜欢内侧,或者至少将其用作辅助措施?中位数和中位数之间的比较究竟告诉我们什么?出于我刚刚指出的原因,中间似乎并不能直接与其他集中趋势指标相提并论。在其他情况下,中间/义齿是否被广泛使用或被视为特别有用?在样本研究论文中使用它们的实际例子将是非常受欢迎的,而在更广泛的背景下直观证明它们可能有用的想法会更好。 它必须要求总计和小计是有意义的-似乎与金钱有关的东西,以及“饼”的分配方式-但即使加法动作也仅对某些数量有意义。对于密集而不是广泛的属性(例如密度或温度),任何形式的求和在物理上都是没有意义的。在我看来,广泛的属性是必要的,但不足以使密宗有所帮助,因为我可以想象一位运输分析师对所运送的货物的重量有限制,因此所有货物(按重量计)的50%它承载的重量等于或大于此重量,但我无法想象生态学家会对new的长度感兴趣,以至于所有new的总长度的50%是由该长度或更长的new贡献的。

1
中位数无偏估计量是否会使平均绝对偏差最小化?
这是一个后续的也是不同的问题,我以前的一个。 我在Wikipedia上读到,“ 拉普拉斯(Laplace)观察到,中值无偏估计器使绝对偏差损失函数的风险最小化。” 但是,我的蒙特卡洛模拟结果不支持该论点。 我假定从对数正常人群中,样品,其中,μ和σ是对数平均和对数标准差,β = EXP (μ )= 50X1,X2,...,XN∼LN(μ,σ2)X1,X2,...,XN∼LN(μ,σ2)X_1,X_2,...,X_N \sim \mbox{LN}(\mu,\sigma^2)μμ\muσσ\sigmaβ=exp(μ)=50β=exp⁡(μ)=50\beta = \exp(\mu)=50 几何平均估计量是总体中值的中值无偏估计量,exp(μ)exp⁡(μ)\exp(\mu) ,其中,μ和σ是对数平均和对数标准差,μ和 σ是极大似然估计μ和σ。β^GM=exp(μ^)=exp(∑log(Xi)N)∼LN(μ,σ2/N)β^GM=exp⁡(μ^)=exp⁡(∑log⁡(Xi)N)∼LN(μ,σ2/N)\hat{\beta}_{\mbox{GM}}= \exp(\hat{\mu})= \exp{(\sum\frac{\log(X_i)}{N})} \sim \mbox{LN}(\mu,\sigma^2/N)μμ\muσσ\sigmaμ^μ^\hat\muσ^σ^\hat\sigmaμμ\muσσ\sigma 校正后的几何平均估计量是总体中位数的均值无偏估计量。 β^CG=exp(μ^−σ^2/2N)β^CG=exp⁡(μ^−σ^2/2N)\hat{\beta}_{\mbox{CG}}= \exp(\hat{\mu}-\hat\sigma^2/2N) 我从LN (log (50 ),√)重复生成大小为5的样本。复制号是10,000。对于几何均值估计器,我得到的平均绝对偏差为25.14,对于校正后的几何均值,则为22.92。为什么?(log(50),log(1+22)−−−−−−−−−√)(log⁡(50),log⁡(1+22))(\log(50),\sqrt{\log(1+2^2)}) 顺便说一句,几何平均值的估计中值绝对偏差为18.18,校正几何平均值估计器为18.58。 我使用的R脚本在这里: #```{r stackexchange} #' Calculate the geomean to estimate the lognormal median. #' #' This function Calculate the geomean to estimate …

3
中位数的标准误
如果我想在非正态分布的小样本(我正在使用python)的情况下测量中位数的标准误差,以下公式正确吗? sigma=np.std(data) n=len(data) sigma_median=1.253*sigma/np.sqrt(n)

4
数据倾斜时应使用均值吗?
入门级应用统计文本通常通过解释均值对样本数据和/或样本中的异常值敏感,从而将均值与中值区分开来(通常是在描述性统计的背景下,并使用均值,中值和众数来激发集中趋势的汇总)。与偏斜的人口分布有关,这可以用作断言当数据不对称时首选中位数的理由。 例如: 给定数据集中集中趋势的最佳度量通常取决于值的分布方式...。当数据不对称时,中位数通常是集中趋势的最佳度量。因为均值对极端观察敏感,所以它会向偏远的数据值的方向拉动,结果可能会导致过度膨胀或过度缩小。” —Pagano和Gauvreau,(2000年),《生物统计学原理》,第二版。 (宝洁公司就在眼前,顺便说一句,本身并没有单独列出。) 作者因此定义了“集中趋势”:“一组数据最常被研究的特征是其中心,即观察趋向于聚集的点。” 这让我感到不那么直截了当的说仅使用中位数period的方式,因为只有在数据/分布对称时才使用均值与仅在等于中位数时才使用均值是同一回事。编辑: whuber正确地指出,我正在将中央趋势的有效度量与中位数相混淆。因此,重要的是要牢记,我正在讨论算术平均值与入门级应用统计学中的中位数的特定框架(此处不考虑模式,其他动机不倾向于集中趋势)。 与其以均值偏离中位数的行为来判断均值的效用,不应该简单地将它们理解为两种不同的中心度度量方法吗?换句话说,对偏度敏感是均值的特征。同样可以有效地辩称“中位数不好,因为它对偏斜度不敏感,因此仅在等于均值时才使用它。” (该模式显然不涉及此问题。)

1
如果总和的中位数或平均值大于加数的总和,那意味着什么?
我正在分析网络延迟的分布。中值上传时间(U)为0.5秒。中值下载(D)时间为2秒。但是,中值总时间(对于每个数据点,T = U + D)为4s。 知道总和的中位数比加数的中位数之和大得多,可以得出什么结论? 出于对统计数据的好奇,如果这个问题用平均数代替中位数,那意味着什么?

1
自举是评估中位数估计不确定性的有效方法吗?
自举法很好地处理了均值估计中的不确定性,但是我记得在某个地方阅读引导程序并不能很好地评估分位数估计中的不确定性(尤其是中位数)。 我不记得在哪里读过这篇文章,并且无法通过Google快速搜索找到很多东西。对此的想法和任何参考将不胜感激。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.