平面或更高阶空间上的样本中位数是否存在公认的定义?


Answers:


19

我不确定多元中位数是否有一个公认的定义。我熟悉的一个是Oja的中点,它使在点子集上形成的单纯形的总和最小化。(有关技术定义,请参见链接。)

更新:上面的Oja定义引用的站点也有一篇不错的论文,涵盖了多元中位数的许多定义:


1
很好的参考:谢谢。它全面涵盖了此处提到的所有内容。
ub

同一网站还包含html的内容概述:cgm.cs.mcgill.ca/~athens/Geometric-Estimators/intro.html
Aditya

15

Rd

  • Pn(A)AARdλ

    Un(t)=inf(λ(A):Pn(A)tAA)

    假设您可以找到一个来给您最小值。然后,将得足够小时,集合(或集合中的元素)会给出中值。使用 和可以恢复中值的定义。ARS答案落入该框架我想... Tukey的半空间位置可以使用获得和 (其中,)。AtA1/2ϵA1/2+ϵϵA=(],x]xR)λ(],x])=xA(a)=(Hx=(tRd:a,tx)λ(Hx)=xxRaRd

  • 变的定义和M-估计 这里的想法是, -quantile的随机变量的在可通过变平等来定义。αQαYR

    • 最常见的定义是使用分位数回归函数 (也称为弹球损失,猜猜为什么吗?) 。的情况为并且您可以使用@ Srikant Answer中的距离将其推广到更高的维度。这是理论上的中位数,但是如果您将期望值替换为经验上的期望值(均值),则会为您提供经验值的中间值。ραQα=arginfxRE[ρα(Yx)]α=1/2ρ1/2(y)=|y|l1

    • 但是Kolshinskii提议使用Legendre-Fenchel变换:由于 ,其中为。他给出了很多深层原因(请参阅论文;)。将其推广到更高的维度需要使用矢量并将替换为但是您可以采用。˚F 小号= 1Qα=Argsups(sαf(s))小号[Rα小号α小号αα=1/2...1/2f(s)=12E[|sY||Y|+s]sRαsαs,αα=(1/2,,1/2)

  • 偏序您可以在创建偏序(具有等效类)后立即在概括分位数的定义。Rd

显然,不同配方之间存在桥梁。它们并不都是显而易见的...


很好的答案,罗宾!
ARS

12

有多种方法可以将中位数概念推广到更高维度。尚未提及,但很久以前就提出来的建议是,构造一个凸包,将其剥离,并尽可能地进行迭代:最后一个包中剩下的是一组点,所有这些点都可以作为“中位数。”

“头撞”是另一种较新的尝试(约于1980年),目的是构建到2D点云的鲁棒中心。(链接指向美国国家癌症研究所提供的文档和软件。)

有多种不同的概括且没有一个明显的解决方案的主要原因是R1可以排序,但R2,R3,...不能排序。


当限制为R1时,任何与通常的中位数一致的度量都是一种候选概括。必须有很多。
phv3773

phv:>可以要求'the'泛化来保留(在更高维度上)中位数的一些有趣属性。这严重限制了候选人的人数(请参阅下面的Srikant回答后的评论)
user603 2010年

@Whuber:>然后,对于单峰分布,可以将排序概念推广为R ^ n(请参阅下面的答案)。
user603 2010年

@kwak:您能详细说明一下吗?通常,对空间排序的数学定义与任何类型的概率分布无关,因此您必须牢记一些其他假设。
ub

1
@Whuber:>您声明:“可以订购R1,但不能订购R2,R3,...”。通过从Rn到R的映射,可以以多种方式对R2,..,R3进行排序。一种这样的方法是tukey深度。它具有许多重要的属性(一定程度上具有鲁棒性,非参数性,不变性...),但这些属性仅在单峰分布情况下有效。让我知道是否需要更多详细信息。
user603 2010年


6

使用Struyf和Rousseeuw的算法DEEPLOC可将Tukey半空间中值扩展到大于2维。详情请参阅这里

该算法用于有效地估计最大深度的点。试图精确地确定这一点的幼稚方法通常与“维数诅咒”(的计算版本)相违背,其中计算统计量所需的运行时间随空间维数成指数增长。



0

R2

XY

mxmy

f(x,y)

R2mxmy

E(|(x,y)(mx,my)|

现在的问题是,我们需要定义我们的意思:

|(x,y)(mx,my)|

在某种意义上,以上是距离度量,并且可能有几种可能的候选定义。

欧几里得度量

|(x,y)(mx,my)|=(xmx)2+(ymy)2

f(x,y)

计程车指标

|(x,y)(mx,my)|=|xmx|+|ymy|

XYxy


Srikant:>否。定义必须具有单变量中位数的两个重要特征。a)数据的单调变换不变,b)不受异常值污染的影响。您建议的扩展都没有这些。图基深度具有这些品质。
user603 2010年

@kwak你说的很有意义。

@Srikant:>检查上面的Gary Campbell引用的R&S论文;)。最好,
user603 2010年

@kwak再想一想,计程车指标确实具有您提到的功能,因为它基本上可以简化为单变量中位数。没有?

2
@Srikant:>对phv的问题没有正确的答案,因为也没有“好的答案”;该研究领域仍在开发中。我只是想指出为什么它仍然是一个开放的问题。
user603 2010年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.