从分布密度函数中,我们可以确定柯西分布的平均值(= 0),如下图所示。但是为什么我们说柯西分布没有意义呢?
从分布密度函数中,我们可以确定柯西分布的平均值(= 0),如下图所示。但是为什么我们说柯西分布没有意义呢?
Answers:
您可以机械地检查期望值是否不存在,但这在物理上应该是直观的,至少如果您接受惠更斯原理和大数定律。对于柯西分布,大数定律的结论是失败的,因此它没有平均值。如果平均独立柯西随机变量,结果不收敛于的的概率为。它保持相同大小的柯西分布。这在光学中很重要。0 n → ∞
柯西分布是来自点光源的线上的归一化光强。惠更斯原理说,您可以通过假设光源和目标之间的任何线重新发射光来确定强度。因此,可以通过假设光线首先击中米外的线并以任何前向角度重新发射来确定米外线的光强度。米外的直线上的光强度可以表示为米外的直线上光分布的倍卷积。即,独立柯西分布的总和是按因子缩放的柯西分布。
如果柯西分布具有均值,则倍卷积除以第个百分位数必须根据大数定律收敛到。相反,它保持不变。如果在距离米,米等的(透明)线上标记第个百分位数,则这些点将形成度的直线。它们不会向弯曲。
这特别告诉您有关柯西分布的信息,但是您应该了解积分检验,因为还有其他分布没有均值,并且没有明确的物理解释。
添加了答案,以响应@whuber对Michael Chernicks答案的评论(并完全重写以消除whuber指出的错误。)
柯西随机变量的期望值的积分值据说是不确定的,因为可以将该值“做成”任何人喜欢的值。积分 (从黎曼积分的意义上解释)通常称为不正确的积分,并且其值必须计算为极限值: 或
柯西主体值作为单个限制获得: 而不是上面的双限制。期望积分的主值很容易看到为因为该限制对所有均为。但这不能说柯西随机变量的均值为。即,将平均值定义为通常意义上的积分值,而不是主值意义上的积分值。
对于,请考虑积分 接近极限值 为 。当,我们得到上面讨论的主值。因此,我们不能为表达式赋予明确的含义
如果人们使用量度-理论方法来计算概率,并且期望值积分是从Lebesgue积分的意义上定义的,那么问题就更简单了。仅在时存在 是有限的,因此对柯西随机变量未定义,因为不是有限的。
柯西(Cauchy)没有平均值,因为您选择的点(0)不是平均值。这是中位数和众数。绝对连续分布的平均值定义为,其中是密度函数,并且积分在的域中(对于柯西,从到)。对于柯西密度,该积分根本不是有限的(从到的一半是,而从到的一半是)。
柯西分布最好被认为是单位圆上的均匀分布,因此如果取平均值是有意义的。假设是某种“平均函数”。也就是说,假设对于单位圆的每个有限子集,是单位圆的一个点。显然,必须是“非自然的”。更确切地说,不能相对于旋转等距。要以更常见但不那么显眼的形式获得柯西分布,请将单位圆从(0,1)投影到x轴上,然后使用此投影将圆上的均匀分布转移到x轴上。
要了解为什么均值不存在,请将x视为单位圆上的函数。在单位圆上找到无数个不相交的弧是非常容易的,因此,如果其中一个弧的长度为d,则该弧上的x> 1 / 4d。因此,每个不相交的弧对平均值的贡献都超过1/4,并且这些弧的总贡献是无限的。我们可以再次做同样的事情,但是x <-1 / 4d,总贡献减去无穷大。这些间隔可以与图表一起显示,但是可以为交叉验证制作图表吗?
一些随机变量的平均值或期望值是在某些概率测度定义的Lebesgue积分:
Cauchy随机变量均值的不存在仅表示Cauchy rv的积分不存在。这是因为柯西分布的尾巴是重尾巴(与正态分布的尾巴比较)。但是,不存在期望值并不禁止存在柯西随机变量的其他函数。
这里更多是视觉上的解释。(对于我们这些数学难题的人。)。使用柯西分布式随机数生成器,然后尝试平均结果值。这是有关此功能的好页面。 https://math.stackexchange.com/questions/484395/how-to-generate-a-cauchy-random-variable 您会发现随机值的“尖峰度”会导致它随着您的移动而变大而不是变小。因此,它没有任何意义。
为了增加出色的答案,我将对为什么积分的非收敛性与统计实践相关的问题发表一些评论。正如其他人提到的那样,如果我们允许主值是“平均值”,则slln不再有效!除此之外,请考虑以下事实的含义:在实践中,所有模型都是近似值。具体而言,柯西分布是无界随机变量的模型。实际上,随机变量是有界的,但界线通常是模糊且不确定的。使用无边界模型是缓解这种情况的一种方法,它使不必要的不确定边界(通常是不自然边界)引入模型中。但是,要使这一点有意义,就不应该影响问题的重要方面。这意味着,如果我们要引入界限,不应以重要方式改变模型。但是,当积分不收敛时,就不会发生!在某种程度上,该模型是不稳定的,因为RV的期望值将在很大程度上取决于任意范围。(在应用程序中,没有任何必要使边界对称!)
因此,最好说积分是发散的,而不是说“无穷大”,当不存在时,最后一个接近意味着一定的值!这里有更详尽的讨论。
我想有点挑剔。顶部的图形错误。x轴存在标准偏差,对于柯西分布不存在。我很挑剔,因为我在工作中的每一天都使用柯西分布。在实际情况下,混淆可能会导致经验错误。具有1个自由度的学生t分布是标准的柯西(Cauchy)。它通常会列出重要性所需的各种sigma。这些sigma不是标准偏差,它们是可能的误差,并且mu是模式。
如果您想正确地制作上述图形,则x轴是原始数据,或者如果您希望它们具有同等大小的误差,则可以给它们相等的可能误差。一个可能的误差是正态分布上的.67标准尺寸偏差。在这两种情况下,它都是半四分位间距。
现在,对于您的问题的答案,以上每个人都写的都是正确的,这是这样做的数学原因。但是,我怀疑您是该主题的新手,所以对于视觉上明显的违反直觉的数学解决方案可能并不正确。
我有两个几乎完全相同的现实世界样本,这些样本是从柯西分布中提取的,都具有相同的模式和相同的可能误差。一个平均值为1.27,一个平均值为1.33。平均值为1.27的标准偏差为400,平均值为1.33的标准偏差为5.15。两者的可能误差均为0.32,众数为1。这意味着对于对称数据,均值不在中心50%内。对于任何检验,仅需一次额外观察即可将均值和/或方差推到显着性之外。原因是均值和方差不是参数,样本均值和样本方差本身就是随机数。
最简单的答案是柯西分布的参数不包含均值,因此均值无方差。
在过去的教学法中,平均值的重要性可能在于它通常是足够的统计量。在基于长期频率的统计数据中,柯西分布没有足够的统计数据。的确,对于在整个实数上具有支持的柯西分布,样本中位数是足够的统计量,但这是因为它是从阶数统计继承而来的。碰巧就足够了,缺少一种简单的思考方法。现在,在贝叶斯统计中,对于柯西分布的参数有足够的统计量,如果您使用均匀先验,则它也是无偏的。我之所以提出这一点,是因为如果您必须每天使用它们,那么您已经了解了对它们进行估算的所有方法。
没有有效的订单统计信息可以用作截断的柯西分布的估计量,这是您在现实世界中可能会遇到的情况,因此对于大多数(但不是全部)现实应用,基于频率的方法没有足够的统计信息。
我的建议是,从心理上摆脱卑鄙,成为真实的事物。它是一种工具,例如锤子,用途广泛,通常可以使用。有时,该工具无法使用。
关于正态和柯西分布的数学注释。当按时间序列接收数据时,仅当t趋于无穷大时误差收敛到零时,才发生正态分布。当按时间序列接收数据时,当误差发散到无穷大时,将发生柯西分布。一个是由于收敛级数,另一个是由于发散级数。柯西分布永远不会到达极限的特定点,它们会在固定点上来回摆动,这样一来,百分之五十的时间在一侧,百分之五十的时间在另一侧。没有中值恢复。