Answers:
消除偏斜时,转换尝试使数据集遵循高斯分布。原因很简单,如果可以转换数据集以使其在统计上足够接近高斯数据集,则可以使用最大的工具集。测试,如ANOVA, -test,˚F -test,以及许多其他依赖于具有恒定方差(数据σ 2)或遵循高斯分布。1个
有模型更加坚固1(如使用莱文的测试,而不是巴特利特的测试),但大多数测试和模型与其他发行工作以及需要你知道你什么分布是有工作的,并且通常仅适用于单一的分布也一样
引用《NIST工程统计手册》:
在回归建模中,我们经常应用转换来实现以下两个目标:
- 满足误差方差假设的均质性。
- 尽可能线性化拟合。
需要谨慎和判断,因为这两个目标可能会冲突。通常,我们通常先尝试实现均质方差,然后再解决使拟合线性化的问题。
包含响应变量和单个自变量的模型的形式为:
其中是响应变量,X是自变量,f是线性或非线性拟合函数,E是随机分量。对于一个好的模型,错误组件的行为应类似于:
- 随机图纸(即独立的);
- 来自固定发行;
- 位置固定 和
- 固定变化。
另外,对于拟合模型,通常进一步假设固定分布为正态且固定位置为零。对于一个好的模型,固定变化应该尽可能小。拟合模型的必要组成部分是验证误差部分的这些假设并评估误差部分的变化是否足够小。直方图,滞后图和正态概率图用于验证误差分量的固定分布,位置和变化假设。响应变量和预测值相对于自变量的关系图用于评估变化是否足够小。残差与独立变量以及预测值的关系图用于评估独立性假设。
根据上述假设评估拟合的有效性和质量是模型拟合过程中至关重要的部分。如果没有适当的模型验证步骤,则不能认为所有拟合都完整。
对于参数模型,大多数情况都是如此。正如Tavrock所说的,具有一个不偏斜的响应变量可以使参数估计的高斯近似更好地工作,这是因为对称分布的收敛速度比偏斜的对称分布要快得多。这意味着,如果您偏斜了数据,则对其进行转换将使较小的数据集最少,因为使用适当的置信区间和参数进行测试(预测区间仍然无效,因为即使您的数据现在是对称的,您也无法说这是正常的,只有参数估计会收敛到高斯)。
整个演讲是关于响应变量的条件分布的,您可以说:关于错误。但是,如果您有一个变量,在查看他的无条件分布时似乎偏斜,则可能意味着它具有偏斜的条件分布。在数据上拟合模型会清除您的想法。
在决策树中,我将首先指出一件事:转换倾斜的解释变量没有意义,单调函数不会改变任何事情;这在线性模型上很有用,但对决策树却无济于事。这就是说,CART模型使用方差分析来执行spits,而方差对异常值和偏斜数据非常敏感,这就是为什么变换响应变量可以大大提高模型准确性的原因。
就像其他读者说的那样,更多有关您计划使用数据实现的背景将很有帮助。
话虽这么说,统计领域中有两个重要的学说,即中心极限定理和大数定律。也就是说,观察次数越多,期望数据集近似于正态分布的平均值,中位数和众数均相等。在大数定律下,如果有足够的观察力,则期望值与实际值之间的偏差最终将降至零。
因此,如果基础分布是已知的,则正态分布使研究人员可以对总体做出更准确的预测。
偏度是指分布偏离此偏度的情况,即偏差可以正偏或负偏。但是,中心极限定理指出,给定足够多的观察值,结果将是近似正态分布。因此,如果分发不正常,则始终建议先尝试收集更多数据,然后再尝试通过您提到的转换过程来更改分发的基础结构。
什么时候偏斜是一件坏事?对称分布(通常但并非总是如此:例如,不适用于柯西分布)具有中值,众数和均值彼此非常接近。因此,请考虑一下,如果我们要测量总体位置,则使中位数,众数和均值彼此接近是很有用的。
例如,如果我们采用 收入分配对数减少偏度,从而获得有用的收入位置模型。但是,我们的右尾仍会比我们想要的重。为了进一步减少这种情况,我们可以使用Pareto分布。Pareto分布类似于数据的对数-对数转换。现在,帕累托分布和对数正态分布在收入规模的低端都有困难。例如,两者都患有。功率变换涵盖了此问题的处理。
例如,从www.rg.net提取的25美元收入(以千克为单位)。
k$ lnk$
28 3.33220451
29 3.36729583
35 3.555348061
42 3.737669618
42 3.737669618
44 3.784189634
50 3.912023005
52 3.951243719
54 3.988984047
56 4.025351691
59 4.077537444
78 4.356708827
84 4.430816799
90 4.49980967
95 4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514
第一列的偏度为0.99,第二列的偏度为-0.05。第一列不太可能是正常的(Shapiro-Wilk p = 0.04),第二列可能不是很不正常的(p = 0.57)。
First column Mean 90.0 (95% CI, 68.6 to 111.3) Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)
因此,问题是,如果您是一个随机列出某项收入的人,您可能会赚到多少?是否可以合理地得出结论,您将赚取90k或高于84k的中位数?还是更有可能得出这样的结论:即使中位数也被作为衡量位置的标准而存在偏差,并且 小于中位数的76.7 k的估计值是否也更合理?
显然,这里的对数正态是更好的模型,平均对数为我们提供了更好的位置度量。短语“我期望获得5位数的薪水”说明了这一点,即使不是完全理解也是如此。