尽管网站上有许多帖子谈到了柯西的各种属性,但我没有找到真正将它们放在一起的帖子。希望这可能是收集一些物品的好地方。我可以扩大这个范围。
重尾巴
尽管柯西(Cauchy)是对称的并且呈钟形,有点像正态分布,但尾巴较重(“肩”较少)。例如,柯西随机变量有一个很小但与众不同的可能性,它将从中位数处超过1000个四分位数范围-与正常随机变量的中位数至少有2.67个四分位数范围相差无几。
方差
柯西的方差是无限的。
编辑:JG在评论中说它是未定义的。如果我们将方差作为值对之间平方距离的一半的平均值-当两者都存在时均等于方差,那么它将是无限的。但是,按照通常的定义,JG是正确的。[尽管与样本均值形成对比,当n变大时,它实际上并不会收敛到任何东西,样本方差的分布随着样本数量的增加而保持增长;比例成比例地增加到n,或者等效地,对数方差的分布随样本大小线性增长。实际考虑产生无限的方差版本似乎可以告诉我们一些事情。
当然,存在样本标准偏差,但是样本越大,样本标准偏差就越大(例如,n = 10时的中值样本标准偏差约为比例参数的3.67倍(IQR的一半),但n = 100,大约是11.9)。
意思
柯西分布甚至没有有限的均值。均值的积分不收敛。结果,即使是大数定律也不适用-随着n的增长,样本均值也不会收敛到某个固定的数量(实际上没有东西可以收敛)。
实际上,柯西分布中样本均值的分布与单个观测值(!)的分布相同。尾巴太重,以至于将更多的值添加到总和中就可以得出一个真正的极端值,以至于在取平均值时仅能补偿除以一个较大的分母。
可预测性
您当然可以为柯西分布中的观测值产生完全合理的预测间隔。有简单,相当有效的估算器,它们在估算位置和规模方面表现良好,可以构建近似的预测区间-因此,从这个意义上讲,至少,柯西变量是“可预测的”。但是,尾部延伸得很远,因此,如果您想要一个高概率区间,则它可能会很宽。
如果您要预测分布的中心(例如,在回归类型模型中),则在某种意义上可能相对容易预测;Cauchy相当高(对于典型的比例尺,很多分布都“靠近”中心),因此,如果您有合适的估算器,则可以相对较好地估算中心。
这是一个例子:
我从具有标准柯西误差的线性关系(100个观测值,截距= 3,斜率= 1.5),以及通过对y值相当可靠的三种方法估算的回归线生成了数据:Tukey 3组线(红色),Theil回归(深绿色)和L1回归(蓝色)。在柯西(Cauchy),没有人会特别有效-尽管他们都会为提高效率的方法提供出色的起点。
然而,与数据的噪声相比,这三个几乎是重合的,并且非常接近数据运行的中心。在这种意义上,柯西显然是“可预测的”。
对于任何一条线,绝对残差的中位数仅略大于1(大多数数据都非常接近估计的线);从这个意义上讲,柯西也是“可预测的”。
对于左侧的图,有一个较大的异常值。为了更好地查看数据,我将y轴上的比例缩小了右侧。