柯西分布是某种“不可预测的”分布吗?


14

柯西分布是某种“不可预测的”分布吗?

我试着做

cs <- function(n) {
  return(rcauchy(n,0,1))
}

在R中获得了多个n值,并注意到它们有时会生成非常不可预测的值。

比较一下例如

as <- function(n) {
  return(rnorm(n,0,1))
}

这似乎总是给点“紧凑”的云。

通过这张图片,它应该看起来像正态分布吗?然而,它可能仅适用于一部分价值。还是诀窍在于,柯西标准偏差(如下图所示)收敛得更慢(左右方向),因此尽管概率较低,但允许更严重的离群值?

https://i.stack.imgur.com/zGTLU.png

这里是正常rv,cs是柯西rv。

在此处输入图片说明

但是,由于异常值的极端,Cauchy pdf的尾部可能永远不会收敛吗?


9
1.您的问题含糊/不清楚,因此很难回答;例如,“不可预测的”在您的问题中是什么意思?“柯西标准偏差”和接近尾声的收敛是什么意思?您似乎没有在任何地方计算标准差。的标准偏差是多少?2.网站上的许多帖子都讨论了柯西的特性,这可能有助于您集中精力解决问题。也可能值得检查维基百科。3.我建议避免使用“钟形”一词;两种密度看起来像钟形。只是用他们的名字叫他们。
Glen_b-恢复莫妮卡

4
当然,柯西是非常沉重的尾。
Glen_b-恢复莫妮卡

1
我已经发布了一些事实;希望这些可以帮助您弄清楚您想知道的内容,以便您可以进一步完善问题。
Glen_b-恢复莫妮卡

1
|X|X

2
正常情况下可能会有大的离群值,但是非常罕见。正常头的密度(和上尾巴,尤其是与至少给定大小的异常值的相关性,即生存函数)比柯西更快地接近0 ,但密度(和生存函数)都高接近0,但都没有达到。
Glen_b-恢复莫妮卡

Answers:


39

尽管网站上有许多帖子谈到了柯西的各种属性,但我没有找到真正将它们放在一起的帖子。希望这可能是收集一些物品的好地方。我可以扩大这个范围。

重尾巴

尽管柯西(Cauchy)是对称的并且呈钟形,有点像正态分布,但尾巴较重(“肩”较少)。例如,柯西随机变量有一个很小但与众不同的可能性,它将从中位数处超过1000个四分位数范围-与正常随机变量的中位数至少有2.67个四分位数范围相差无几。

方差

柯西的方差是无限的。

编辑:JG在评论中说它是未定义的。如果我们将方差作为值对之间平方距离的一半的平均值-当两者都存在时均等于方差,那么它将是无限的。但是,按照通常的定义,JG是正确的。[尽管与样本均值形成对比,当n变大时,它实际上并不会收敛到任何东西,样本方差的分布随着样本数量的增加而保持增长;比例成比例地增加到n,或者等效地,对数方差的分布随样本大小线性增长。实际考虑产生无限的方差版本似乎可以告诉我们一些事情。

当然,存在样本标准偏差,但是样本越大,样本标准偏差就越大(例如,n = 10时的中值样本标准偏差约为比例参数的3.67倍(IQR的一半),但n = 100,大约是11.9)。

意思

柯西分布甚至没有有限的均值。均值的积分不收敛。结果,即使是大数定律也不适用-随着n的增长,样本均值也不会收敛到某个固定的数量(实际上没有东西可以收敛)。

实际上,柯西分布中样本均值的分布与单个观测值(!)的分布相同。尾巴太重,以至于将更多的值添加到总和中就可以得出一个真正的极端值,以至于在取平均值时仅能补偿除以一个较大的分母。

可预测性

您当然可以为柯西分布中的观测值产生完全合理的预测间隔。有简单,相当有效的估算器,它们在估算位置和规模方面表现良好,可以构建近似的预测区间-因此,从这个意义上讲,至少,柯西变量是“可预测的”。但是,尾部延伸得很远,因此,如果您想要一个高概率区间,则它可能会很宽。

如果您要预测分布的中心(例如,在回归类型模型中),则在某种意义上可能相对容易预测;Cauchy相当高(对于典型的比例尺,很多分布都“靠近”中心),因此,如果您有合适的估算器,则可以相对较好地估算中心。

这是一个例子:

我从具有标准柯西误差的线性关系(100个观测值,截距= 3,斜率= 1.5),以及通过对y值相当可靠的三种方法估算的回归​​线生成了数据:Tukey 3组线(红色),Theil回归(深绿色)和L1回归(蓝色)。在柯西(Cauchy),没有人会特别有效-尽管他们都会为提高效率的方法提供出色的起点。

然而,与数据的噪声相比,这三个几乎是重合的,并且非常接近数据运行的中心。在这种意义上,柯西显然是“可预测的”。

对于任何一条线,绝对残差的中位数仅略大于1(大多数数据都非常接近估计的线);从这个意义上讲,柯西也是“可预测的”。

与柯西误差和三个拟合回归线的线性关系

对于左侧的图,有一个较大的异常值。为了更好地查看数据,我将y轴上的比例缩小了右侧。


1
重尾和无穷大是相关的,对吗?
mavavilj

当然。不确定的均值也与粗尾有关。
Glen_b-恢复莫妮卡

“有简单,相当有效的估计器,它们在估计位置和比例时表现良好,并且可以构建近似的预测间隔”-您可以提供参考吗?
卡洛斯·辛纳利

评论不作进一步讨论;此对话已转移至聊天
gung-恢复莫妮卡

@Carlos那里有两个不同的问题-(i)Cauchy中的位置(例如适当修剪的均值)和比例的简单,相当有效的估计量,以及(ii)构建适用于Cauchy的预测间隔的方法。我认为第一个已经在现场进行了介绍,第二个值得提出一个问题。
Glen_b-恢复莫妮卡

1

μσñμ±σμ±636.62σ

σ

柯西分布在自然界中显得相当多,特别是在您具有某种形式的增长的地方。它也出现在事物旋转的地方,例如岩石从山上滚下来。您会发现它是股票市场收益中丑陋的混合分布的核心分布,尽管它不是拍卖中出售的古董之类的收益。古董的回报也属于没有均值或方差的分布,但不属于柯西分布。差异是由拍卖规则中的差异造成的。如果您更改了纽约证券交易所的规则,则柯西分布将消失,并且将出现另一种分布。

要了解为什么通常会出现这种情况,请想象您是很多投标人和潜在投标人中的投标人。由于股票是通过两次拍卖出售的,因此不适用获胜者的诅咒。在平衡状态下,理性行为是竞标您的期望值。期望是平均值的一种形式。随着样本量达到无穷大,平均估计值的分布将收敛于正态性。

[RŤ=pŤ+1个pŤ

如果人们认为股票市场应该具有正态分布或对数正态分布,那么这将使股票市场非常动荡,但是如果您预期尾巴很重,则不会意外地波动。

我已经为柯西分布构造了贝叶斯和频数预测分布,并给出了它们很好的假设。贝叶斯预测使Kullback-Leibler散度最小化,这意味着对于给定的数据集,它与预测中的自然分布尽可能接近。Frequentist预测使来自许多独立样本的许多独立预测的平均 Kullback-Leibler差异最小。但是,对于任何一个样本,它不一定都表现良好,就像人们期望的那样具有平均覆盖率。尾巴确实会聚,但是会聚很慢。

多元柯西(Cauchy)具有更多令人沮丧的特性。例如,尽管由于没有均值,它显然不能变位,但它与协方差矩阵没有任何相似之处。如果系统中没有其他事件发生,柯西误差将始终是球形的。另外,尽管没有协变量,但也没有独立的变量。要了解在实际意义上这有多重要,可以想象两个都在成长并且彼此进行贸易的国家。一个错误不独立于另一个错误。我的错误会影响您的错误。如果一个国家被一个疯子接管,那么到处都有该疯子的错误。另一方面,由于影响不是像协方差矩阵所期望的那样呈线性关系,因此其他国家可以切断关系以将影响最小化。

这也是使特朗普的贸易战如此危险的原因。排在欧盟之后的世界第二大经济体通过与其他单一经济体的贸易来宣告经济战争,并通过向宣战的国家借钱与之抗衡来为这场战争筹集资金。如果这些依赖关系被迫平息,那将是一个丑陋的方式,没人会留下鲜活的记忆。自从杰克逊政府自英格兰银行禁运大西洋贸易以来,我们再也没有类似的问题。

柯西分布令人着迷,因为它出现在指数和S曲线生长系统中。他们使人们感到困惑,因为他们的日常生活充满了密度,这些密度确实具有均值并且通常具有差异。由于吸取了错误的教训,这使得决策非常困难。


我喜欢这个答案中大胆的将数学属性映射到现实世界行为的方式。但是,您是否不应该提到(双方)截断柯西的所有瞬间都是有限的?
Alecos Papadopoulos

它仅在左侧被截断。名义上的行星预算约束在右边是随机的,并且由于货币系统不是保护系统,所以在右边它们是无限的。
戴夫·哈里斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.