我想知道是否有人可以帮助我了解有关峰度的信息(即,是否有任何方法可以转换您的数据以减少它?)
我有一个包含大量案例和变量的问卷数据集。对于我的一些变量,数据显示出相当高的峰度值(即瘦小体分布),这是由于许多参与者对该变量给出的分数完全相同。我确实有一个特别大的样本量,因此根据中心极限定理,违反正态性仍然可以。
但是,问题在于,峰度特别高的事实在我的数据集中产生了许多单变量离群值。这样,即使我转换数据或除去/调整异常值,峰度的高水平也意味着下一个最高分会自动变为异常值。我打算使用(判别函数分析)。如果违规是由偏斜而不是异常值引起的,则据说DFA可以很好地抵制偏离正常状态的情况。此外,据说DFA特别受数据中异常值的影响(Tabachnick&Fidel)。
关于如何解决这个问题的任何想法?(我最初的想法是某种控制峰度的方法,但是如果我的大多数样本都给出类似的评分,那不是一件好事吗?)