为什么偏斜数据不是建模的首选?


16

在大多数情况下,人们谈论变量转换(针对预测变量和响应变量)时,他们都在讨论处理数据偏斜的方法(例如对数转换,Box和Cox转换等)。我无法理解的是为什么消除偏斜被认为是一种常见的最佳实践?偏度如何影响诸如基于树的模型,线性模型和非线性模型之类的各种模型的性能?什么样的模型更受偏斜的影响,为什么?


2
为了给出合理的答案,请阐明您的意思:a)数据,b)建模和c)模型。像往常一样,关键的问题是您要如何处理。但这是什么
天使

我更新了答案,添加了一些相关的引文并扩展了要求。
Tavrock

Answers:


11

消除偏斜时,转换尝试使数据集遵循高斯分布。原因很简单,如果可以转换数据集以使其在统计上足够接近高斯数据集,则可以使用最大的工具集。测试,如ANOVA, -test,˚F -test,以及许多其他依赖于具有恒定方差(数据σ 2)或遵循高斯分布。1个tFσ2

有模型更加坚固1(如使用莱文的测试,而不是巴特利特的测试),但大多数测试和模型与其他发行工作以及需要你知道你什么分布有工作的,并且通常仅适用于单一的分布也一样

引用《NIST工程统计手册》

在回归建模中,我们经常应用转换来实现以下两个目标:

  1. 满足误差方差假设的均质性。
  2. 尽可能线性化拟合。

需要谨慎和判断,因为这两个目标可能会冲突。通常,我们通常先尝试实现均质方差,然后再解决使拟合线性化的问题。

在另一个地方

包含响应变量和单个自变量的模型的形式为:

Yi=f(Xi)+Ei

其中是响应变量,X是自变量,f是线性或非线性拟合函数,E是随机分量。对于一个好的模型,错误组件的行为应类似于:YXFË

  1. 随机图纸(即独立的);
  2. 来自固定发行;
  3. 位置固定 和
  4. 固定变化。

另外,对于拟合模型,通常进一步假设固定分布为正态且固定位置为零。对于一个好的模型,固定变化应该尽可能小。拟合模型的必要组成部分是验证误差部分的这些假设并评估误差部分的变化是否足够小。直方图,滞后图和正态概率图用于验证误差分量的固定分布,位置和变化假设。响应变量和预测值相对于自变量的关系图用于评估变化是否足够小。残差与独立变量以及预测值的关系图用于评估独立性假设。

根据上述假设评估拟合的有效性和质量是模型拟合过程中至关重要的部分。如果没有适当的模型验证步骤,则不能认为所有拟合都完整。


  1. 索赔的(缩写)引用:
    • Breyfogle III,Forrest W. 实现六个西格玛
    • 托马斯·皮兹德克。六西格玛手册
    • 蒙哥马利(Douglas C),统计质量控制简介
    • 埃德 笨拙的Willaim H和Bakerjan,Ramon。工具和制造工程师手册:台式机版

感谢您的回复Tavrock。但据我所知,决策树中没有使用ANOVA或F检验的t检验(至少用于执行拆分)。同样,在线性回归中,关于分布形状的大多数假设都与误差有关。如果出现错误,则这些测试将失败。因此,这意味着预测变量的偏斜度不应影响这些模型的预测质量。如果我错了,请纠正我。再次感谢!!
saurav shekhar

1
您能否澄清您的问题-您是否想知道有关转换响应变量或有关转换预测变量的信息,或两者兼而有之?
Groovy_Worm '17

1
@Groovy_Worm感谢您指出这一点。在这个问题中,我同时关注预测变量和响应变量。
saurav shekhar

您可能正在寻找广义线性建模(GLM)。在线性回归中,通常假设您的因变量遵循以随机变量Xe为条件的高斯分布。使用GLM,您可以扩展Universe,以(几乎)允许因变量,自变量(通过指定的链接函数)进行任何类型的分布。
克里斯K

7

对于参数模型,大多数情况都是如此。正如Tavrock所说的,具有一个不偏斜的响应变量可以使参数估计的高斯近似更好地工作,这是因为对称分布的收敛速度比偏斜的对称分布要快得多。这意味着,如果您偏斜了数据,则对其进行转换将使较小的数据集最少,因为使用适当的置信区间和参数进行测试(预测区间仍然无效,因为即使您的数据现在是对称的,您也无法说这是正常的,只有参数估计会收敛到高斯)。

整个演讲是关于响应变量的条件分布的,您可以说:关于错误。但是,如果您有一个变量,在查看他的无条件分布时似乎偏斜,则可能意味着它具有偏斜的条件分布。在数据上拟合模型会清除您的想法。

在决策树中,我将首先指出一件事:转换倾斜的解释变量没有意义,单调函数不会改变任何事情;这在线性模型上很有用,但对决策树却无济于事。这就是说,CART模型使用方差分析来执行spits,而方差对异常值和偏斜数据非常敏感,这就是为什么变换响应变量可以大大提高模型准确性的原因。


1

我相信这是恢复高斯人传统的一种人工产物,因为它们具有良好的特性。

但是,还有一些不错的分布替代方案,例如,包含大量不同偏斜分布形状和形式的广义伽玛


1

就像其他读者说的那样,更多有关您计划使用数据实现的背景将很有帮助。

话虽这么说,统计领域中有两个重要的学说,即中心极限定理大数定律。也就是说,观察次数越多,期望数据集近似于正态分布的平均值,中位数和众数均相等。在大数定律下,如果有足够的观察力,则期望值与实际值之间的偏差最终将降至零。

因此,如果基础分布是已知的,则正态分布使研究人员可以对总体做出更准确的预测。

偏度是指分布偏离此偏度的情况,即偏差可以正偏或负偏。但是,中心极限定理指出,给定足够多的观察值,结果将是近似正态分布。因此,如果分发不正常,则始终建议先尝试收集更多数据,然后再尝试通过您提到的转换过程来更改分发的基础结构。


1

什么时候偏斜是一件坏事?对称分布(通常但并非总是如此:例如,不适用于柯西分布)具有中值,众数和均值彼此非常接近。因此,请考虑一下,如果我们要测量总体位置,则使中位数,众数和均值彼此接近是很有用的。

例如,如果我们采用 收入分配对数减少偏度,从而获得有用的收入位置模型。但是,我们的右尾仍会比我们想要的重。为了进一步减少这种情况,我们可以使用Pareto分布。Pareto分布类似于数据的对数-对数转换。现在,帕累托分布和对数正态分布在收入规模的低端都有困难。例如,两者都患有ln0=-功率变换涵盖了此问题的处理

例如,从www.rg.net提取的25美元收入(以千克为单位)。

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

第一列的偏度为0.99,第二列的偏度为-0.05。第一列不太可能是正常的(Shapiro-Wilk p = 0.04),第二列可能不是很不正常的(p = 0.57)。

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

因此,问题是,如果您是一个随机列出某项收入的人,您可能会赚到多少?是否可以合理地得出结论,您将赚取90k或高于84k的中位数?还是更有可能得出这样的结论:即使中位数也被作为衡量位置的标准而存在偏差,并且经验值[意思lnķ$]  小于中位数的76.7 k的估计值是否也更合理?

显然,这里的对数正态是更好的模型,平均对数为我们提供了更好的位置度量。短语“我期望获得5位数的薪水”说明了这一点,即使不是完全理解也是如此。


0

大多数结果基于高斯假设。如果分布偏斜,则没有高斯分布,因此也许您应该拼命尝试将其转化为高斯分布。

但是,当然,您可以尝试使用GLM。


0

我认为这不仅是建模,而且我们的大脑还不能用来处理高度偏斜的数据。例如,在行为金融学中众所周知,我们不擅长估计极低或极高的概率。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.