为什么柯西分布没有平均值?


109

从分布密度函数中,我们可以确定柯西分布的平均值(= 0),如下图所示。但是为什么我们说柯西分布没有意义呢?

在此处输入图片说明


2
我推荐参考文献Cabeza G.,UA。(2013)。柯西媒体发行公司。在博客Apoyo enMatemáticas中,有关柯西分布的平均值。

Answers:


99

您可以机械地检查期望值是否不存在,但这在物理上应该是直观的,至少如果您接受惠更斯原理大数定律。对于柯西分布,大数定律的结论是失败的,因此它没有平均值。如果平均独立柯西随机变量,结果不收敛于的的概率为。它保持相同大小的柯西分布。这在光学中很重要。0 n n0n1

柯西分布是来自点光源的线上的归一化光强。惠更斯原理说,您可以通过假设光源和目标之间的任何线重新发射光来确定强度。因此,可以通过假设光线首先击中米外的线并以任何前向角度重新发射来确定米外线的光强度。米外的直线上的光强度可以表示为米外的直线上光分布的倍卷积。即,独立柯西分布的总和是按因子缩放的柯西分布。21nn1nn

如果柯西分布具有均值,则倍卷积除以第个百分位数必须根据大数定律收敛到。相反,它保持不变。如果在距离米,米等的(透明)线上标记第个百分位数,则这些点将形成度的直线。它们不会向弯曲。25nn02512450

这特别告诉您有关柯西分布的信息,但是您应该了解积分检验,因为还有其他分布没有均值,并且没有明确的物理解释。


39
+1现在一个有启发性的答案:-)(对不起)。顺便说一句,该原则是为克里斯蒂安·惠更斯而不是惠更斯命名的。惠更斯是最早认识到Pascal在1650年代发表的概率论新进展的人(根据他与费马特的来信):正是惠更斯对这些观点的阐述(1657年),包括期望的观点,最初是关于数学的概率论。为雅各布·伯努利(Ako Conjectandi,1713)开创性的(后遗)论着铺平道路。
ub

4
振幅是传播的,而不是强度。
德鲁·康斯坦丁

2
这是一个很好的答案,但是我发现结尾令人困惑:“ ...在25度的直线上标记第25个百分位,直线成45度。它们不会向0弯曲。” 该语句本身是正确的(作为惠更斯-菲涅耳原理的结果),但是在“除以 ”之前。当在2米处以2分,在3米处以3分,...时,透明线是垂直的(垂直于捕获光的屏幕)。45度分位数线属于Cauchy的总和,尚无依据(尚未)。n
Lee David Chung Lin

40

添加了答案,以响应@whuber对Michael Chernicks答案的评论(并完全重写以消除whuber指出的错误。)

柯西随机变量的期望值的积分值据说是不确定的,因为可以将该值“做成”任何人喜欢的值。积分 (从黎曼积分的意义上解释)通常称为不正确的积分,并且其值必须计算为极限值: 或

xπ(1+x2)dx
xπ(1+x2)dx=limT1limT2+T1T2xπ(1+x2)dx
xπ(1+x2)dx=limT2+limT1T1T2xπ(1+x2)dx
当然,两个评估都应给出相同的有限值。如果不是,则说积分是不确定的。这立即表明了为什么说柯西随机变量的均值是不确定的:内部极限的极限值发散了。

柯西主体值作为单个限制获得: 而不是上面的双限制。期望积分的主值很容易看到为因为该限制对所有均为。但这不能说柯西随机变量的均值为。即,将平均值定义为通常意义上的积分值,而不是主值意义上的积分值。

limTTTxπ(1+x2)dx
00T0

对于,请考虑积分 接近极限值 为 。当,我们得到上面讨论的主值。因此,我们不能为表达式赋予明确的含义α>0

TαTxπ(1+x2)dx=TTxπ(1+x2)dx+TαTxπ(1+x2)dx=0+ln(1+x2)2π|TαT=12πln(1+α2T21+T2)=12πln(α2+T21+T2)
ln(α)πTα=10
xπ(1+x2)dx
而不指定如何处理两个无穷大,而忽略这一点将导致所有各种并发症和错误的结果,因为当主要价值的牛奶伪装成有价值的奶油时,事情并不总是看起来那样。这就是为什么柯西随机变量的均值被认为是未定义的,而不是整数的主要值的原因。0

如果人们使用量度-理论方法来计算概率,并且期望值积分是从Lebesgue积分的意义上定义的,那么问题就更简单了。仅在时存在 是有限的,因此对柯西随机变量未定义,因为不是有限的。g|g|E[X]XE[|X|]


9
中间积分的计算是不正确的:它是零,而不是对数。问题实际上在于评估无限积分中隐含的两个极限。
ub

@whuber感谢您指出错误。我已经完全重写了我的答案,您的评论不再适用。
Dilip Sarwate 2012年

我不明白为什么不存在该比率的期望。如果和的正态分布均值不为零,则的均值由,我想念什么?XYZ=XYxyp(x,y)dxdy
罗伊2015年

@Drazick我在回答中的任何地方都没有提到两个正常随机变量的比率。请询问有关Cauchy随机变量的问题的人。
Dilip Sarwate 2015年

2
@Drazick看看您的积分是否存在。通常,如果的密度在附近是连续的,则E [X ^ {-1}] $不存在。X0
Dilip Sarwate 2015年

33

虽然以上答案是对为何柯西分布没有期望的有效解释,但我发现两个事实的相互独立的正态的比率是柯西的事实,正如我们所阐明的那样:确实,我们具有 ,第二个期望是。X1/X2N(0,1)

E[|X1||X2|]=E[|X1|]×E[1|X2|]
+

1
是当我知道是标准柯西时,是一个“折叠的”柯西随机变量?如何找到?|X1X2|X1X2|X1X2|
StubbornAtom

1
是的,这是柯西变量的绝对值,因此在正实数上具有密度。f(x)+f(x)
西安

如果折叠正态分布,则不是无限吗?E1/|X2|
陈伟业

它是无限的。
西安

22

柯西(Cauchy)没有平均值,因为您选择的点(0)不是平均值。这是中位数众数。绝对连续分布的平均值定义为,其中是密度函数,并且积分在的域中(对于柯西,从到)。对于柯西密度,该积分根本不是有限的(从到的一半是,而从到的一半是)。xf(x)dxff00


9
我不是在批评你,@ Dilip:我是在扩大你的观察范围。很有意思的是,零主值的存在可能会诱使我们将柯西分布的均值(或任何RV的均值)定义为积分的主值。这将更深入地探究这个问题的本质,通过声明积分是无限的还是不确定的来掩盖这个问题的本质:即,为什么主值不起作用?为什么将其用作平均值是不合法的?
ub

5
@whuber有趣的是,如果对a> 0截断-a和+ a处的积分,则得到0。因此,将极限作为对称积分的∞取0。另一个问为什么不是的原因0均值。
Michael Chernick 2012年

10
@whuber:我在倒数第二句话中说的是最后一个问题,这是夸夸其谈。无论如何,我们都希望绝对趋同,而在我心中的“原因”是我们希望事物表现得像区域。特别是,我们需要能够将事物(功能)切碎并随意重新排列,而不会打扰我们获得的答案。我们无法对带有柯西分布的线性函数进行斩波和重新排列,因此我们必须坚持不存在其均值。
主教

9
@cardinal是一个很好的答案!我不只是说说而已,因为问题本身就问“为什么我们说柯西分布没有意义?” 不确定期望是不确定的,但可能会存在合理的积分替代定义,并产生直观上正确的答案!这会给人们带来麻烦。您的答案接近我的想法,但仍不完整。我认为一个令人满意的答案将确定统计理论的重要定理,而这些定理在我们使用条件收敛积分时会失败。
ub

7
@Dilip我也这么认为,但是经过反思,发现这比您似乎建议的更具挑战性。例如,中央极限定理没有问题:当然,要求方差会自动保证期望。切比雪夫(Chebyshev)的不等式证明了许多定理,再次保证了我们的平均值。所以我真的很好奇:统计学实践中使用的主要定理是什么,我们真的必须认识到条件收敛但不是收敛的问题。
ub

16

柯西分布最好被认为是单位圆上的均匀分布,因此如果取平均值是有意义的。假设是某种“平均函数”。也就是说,假设对于单位圆的每个有限子集,是单位圆的一个点。显然,必须是“非自然的”。更确切地说,不能相对于旋转等距。要以更常见但不那么显眼的形式获得柯西分布,请将单位圆从(0,1)投影到x轴上,然后使用此投影将圆上的均匀分布转移到x轴上。fXf(X)ff

要了解为什么均值不存在,请将x视为单位圆上的函数。在单位圆上找到无数个不相交的弧是非常容易的,因此,如果其中一个弧的长度为d,则该弧上的x> 1 / 4d。因此,每个不相交的弧对平均值的贡献都超过1/4,并且这些弧的总贡献是无限的。我们可以再次做同样的事情,但是x <-1 / 4d,总贡献减去无穷大。这些间隔可以与图表一起显示,但是可以为交叉验证制作图表吗?


1
欢迎使用该站点@DavidEpstein。您可以使用首选软件制作图像,然后单击答案字段上方的小图片图标(以启动向导)将其上传到答案中。但是不幸的是,您需要> = 10 rep来这样做。我相信你会尽快做到的。在此期间,如果您可以将图像发布到Internet上的其他任何地方,并在答案中发布指向该图像的链接,则高级代表用户可以获取该图像并将其发布给您。
gung

3
我不知道柯西被解释为一个圆圈上的制服,但这确实是有道理的。拓扑参数表明,在具有平均函数性质的圆上没有连续函数。
约翰尼,2012年

@DavidEpstein 在其他帖子中,我也阅读了您的答案。立体投影真的很好。相比之下,您能否评论为什么半圆同样有效的径向投影并不意味着均值定义明确?即,,然后是标准柯西。在几何上,这是一个基本事实,即内切角始终是其相应中心角的一半。UUnif[0,1]Xtan(π(U12))
Lee David Chung Lin

实际上,就光源的物理模型而言,半圆形图片更为合适,因为尚不清楚为什么惠更斯原理会为您提供立体投影。
Lee David Chung Lin

10

一些随机变量的平均值或期望值是在某些概率测度定义的Lebesgue积分: XP

EX=XdP

Cauchy随机变量均值的不存在仅表示Cauchy rv的积分不存在。这是因为柯西分布的尾巴是重尾巴(与正态分布的尾巴比较)。但是,不存在期望值并不禁止存在柯西随机变量的其他函数。


5
尾部“重”是指尾部在两个方向上的衰减都不够快,无法使积分收敛。这个概念与正态分布(或任何参考分布)无关。
ub

4
是的,感谢您的更正。我无意暗示粗尾与正态分布之间存在任何严格的联系。但是,我认为在视觉上比较正态分布(带有轻尾巴)和重尾分布会(并非总是)使“重”尾巴的概念更容易理解。
Tomas 2012年


4

为了增加出色的答案,我将对为什么积分的非收敛性与统计实践相关的问题发表一些评论。正如其他人提到的那样,如果我们允许主值是“平均值”,则slln不再有效!除此之外,请考虑以下事实的含义:在实践中,所有模型都是近似值。具体而言,柯西分布是无界随机变量的模型。实际上,随机变量是有界的,但界线通常是模糊且不确定的。使用无边界模型是缓解这种情况的一种方法,它使不必要的不​​确定边界(通常是不自然边界)引入模型中。但是,要使这一点有意义,就不应该影响问题的重要方面。这意味着,如果我们要引入界限,不应以重要方式改变模型。但是,当积分不收敛时,就不会发生!在某种程度上,该模型是不稳定的,因为RV的期望值将在很大程度上取决于任意范围。(在应用程序中,没有任何必要使边界对称!)

因此,最好说积分是发散的,而不是说“无穷大”,当不存在时,最后一个接近意味着一定的值!这里有更详尽的讨论。


-4

我想有点挑剔。顶部的图形错误。x轴存在标准偏差,对于柯西分布不存在。我很挑剔,因为我在工作中的每一天都使用柯西分布。在实际情况下,混淆可能会导致经验错误。具有1个自由度的学生t分布是标准的柯西(Cauchy)。它通常会列出重要性所需的各种sigma。这些sigma不是标准偏差,它们是可能的误差,并且mu是模式。

如果您想正确地制作上述图形,则x轴是原始数据,或者如果您希望它们具有同等大小的误差,则可以给它们相等的可能误差。一个可能的误差是正态分布上的.67标准尺寸偏差。在这两种情况下,它都是半四分位间距。

现在,对于您的问题的答案,以上每个人都写的都是正确的,这是这样做的数学原因。但是,我怀疑您是该主题的新手,所以对于视觉上明显的违反直觉的数学解决方案可能并不正确。

我有两个几乎完全相同的现实世界样本,这些样本是从柯西分布中提取的,都具有相同的模式和相同的可能误差。一个平均值为1.27,一个平均值为1.33。平均值为1.27的标准偏差为400,平均值为1.33的标准偏差为5.15。两者的可能误差均为0.32,众数为1。这意味着对于对称数据,均值不在中心50%内。对于任何检验,仅需一次额外观察即可将均值和/或方差推到显着性之外。原因是均值和方差不是参数,样本均值和样本方差本身就是随机数。

最简单的答案是柯西分布的参数不包含均值,因此均值无方差。

在过去的教学法中,平均值的重要性可能在于它通常是足够的统计量。在基于长期频率的统计数据中,柯西分布没有足够的统计数据。的确,对于在整个实数上具有支持的柯西分布,样本中位数是足够的统计量,但这是因为它是从阶数统计继承而来的。碰巧就足够了,缺少一种简单的思考方法。现在,在贝叶斯统计中,对于柯西分布的参数有足够的统计量,如果您使用均匀先验,则它也是无偏的。我之所以提出这一点,是因为如果您必须每天使用它们,那么您已经了解了对它们进行估算的所有方法。

没有有效的订单统计信息可以用作截断的柯西分布的估计量,这是您在现实世界中可能会遇到的情况,因此对于大多数(但不是全部)现实应用,基于频率的方法没有足够的统计信息。

我的建议是,从心理上摆脱卑鄙,成为真实的事物。它是一种工具,例如锤子,用途广泛,通常可以使用。有时,该工具无法使用。

关于正态和柯西分布的数学注释。当按时间序列接收数据时,仅当t趋于无穷大时误差收敛到零时,才发生正态分布。当按时间序列接收数据时,当误差发散到无穷大时,将发生柯西分布。一个是由于收敛级数,另一个是由于发散级数。柯西分布永远不会到达极限的特定点,它们会在固定点上来回摆动,这样一来,百分之五十的时间在一侧,百分之五十的时间在另一侧。没有中值恢复。


9
这个回应有些混乱!例如,它说:“现在在贝叶斯统计中,对于柯西分布的参数有足够的统计量,如果您使用统一的先验,那么它也是无偏的。” 这很难理解!首先,Frequentist和Bayesian的充裕度概念非常接近(我相信只能在某些奇怪的无穷大样本空间中有所不同,因此实线是相同的)。简单地说,对于固定尺寸的Cauchy模型,没有足够的统计量(显然,完整的数据就足够了)。
kjetil b halvorsen 2012年

-6

简单来说,曲线下方的区域会随着您缩小而接近无穷大。如果对有限区域进行采样,则可以找到该区域的均值。但是,无穷无尽。


8
根据定义,PDF下的面积等于,因此您必须通过“曲线”来表示其他含义。它是什么?1
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.