处理峰度产生的异常值


10

我想知道是否有人可以帮助我了解有关峰度的信息(即,是否有任何方法可以转换您的数据以减少它?)

我有一个包含大量案例和变量的问卷数据集。对于我的一些变量,数据显示出相当高的峰度值(即瘦小体分布),这是由于许多参与者对该变量给出的分数完全相同。我确实有一个特别大的样本量,因此根据中心极限定理,违反正态性仍然可以。

但是,问题在于,峰度特别高的事实在我的数据集中产生了许多单变量离群值。这样,即使我转换数据或除去/调整异常值,峰度的高水平也意味着下一个最高分会自动变为异常值。我打算使用(判别函数分析)。如果违规是由偏斜而不是异常值引起的,则据说DFA可以很好地抵制偏离正常状态的情况。此外,据说DFA特别受数据中异常值的影响(Tabachnick&Fidel)。

关于如何解决这个问题的任何想法?(我最初的想法是某种控制峰度的方法,但是如果我的大多数样本都给出类似的评分,那不是一件好事吗?)

Answers:


8

解决问题的显而易见的“常识”方法是

  1. 得到的结论使用完整的数据集。也就是说,如果不考虑中间计算,您将得出什么结果?
  2. 得到结论使用的数据集去掉说:“离群”。也就是说,如果不考虑中间计算,您将得出什么结果?
  3. 将步骤2与步骤1比较
  4. 如果没有区别,甚至会忘记您遇到的问题。离群值与您的结论无关。离群值可能会影响使用这些数据可能得出的其他结论,但这与您的工作无关。这是别人的问题。
  5. 如果存在差异,那么基本上就是“信任”问题。这些“异常值”是否真实地表示它们确实代表了您的分析?还是“异常值”是不好的,因为它们来自某些“受污染的来源”?

在情况5中,您基本上会遇到一种情况,即您用来描述“人口”的任何“模型”都是不完整的-有些细节尚未说明,但对结论很重要。有两种方法可以解决此问题,与两种“信任”方案相对应:

  1. P(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. P(D|θ)P(D|θ)=G(D|θ)u+B(D|θ)(1u)

大多数“标准”过程可以证明是这些模型的近似值。最明显的一种情况是考虑情况1,在这种情况下,假设观测值之间的差异是恒定的。通过将这个假设放到分布中,可以得到混合分布。这是“正态”和“ t”分布之间的联系。法线具有固定的方差,而“ t”混合不同的方差,“混合”的量取决于自由度。高DF意味着低混合(离群点不太可能),低DF意味着高混合(离群点很可能)。实际上,您可以将案例2作为案例1的特例,其中“好”观测值是正常的,而“坏”观测值是柯西(t值为1 DF)。


@probabilityislogic是一个很好的答案
Peter Flom

只是澄清一下:最佳分类需要了解真实的多元分布。如果您可以很好地估计这些分布,那么所得的分类函数几乎是最佳的。异常值(如峰度所示)确实存在问题,因为在该区域估计密度的数据很少。对于多元数据,维数的诅咒也导致了这个问题。
Peter Westfall
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.