Questions tagged «skewness»

偏度度量(或指代)变量分布中的不对称程度。

2
伽玛随机变量对数的偏度
考虑伽玛随机变量 。对于均值,方差和偏度,有一些简洁的公式:X∼Γ(α,θ)X∼Γ(α,θ)X\sim\Gamma(\alpha, \theta) E[X]Var[X]Skewness[X]=αθ=αθ2=1/α⋅E[X]2=2/α−−√E[X]=αθVar⁡[X]=αθ2=1/α⋅E[X]2Skewness⁡[X]=2/α\begin{align} \mathbb E[X]&=\alpha\theta\\ \operatorname{Var}[X]&=\alpha\theta^2=1/\alpha\cdot\mathbb E[X]^2\\ \operatorname{Skewness}[X]&=2/\sqrt{\alpha} \end{align} 现在考虑对数转换后的随机变量。维基百科给出了均值和方差的公式:Y=log(X)Y=log⁡(X)Y=\log(X) E[Y]Var[Y]=ψ(α)+log(θ)=ψ1(α)E[Y]=ψ(α)+log⁡(θ)Var⁡[Y]=ψ1(α)\begin{align} \mathbb E[Y]&=\psi(\alpha)+\log(\theta)\\ \operatorname{Var}[Y]&=\psi_1(\alpha)\\ \end{align} 通过digamma和trigamma函数定义为γ函数对数的一阶和二阶导数。 偏度的公式是什么? 会出现四伽马功能吗? (让我对此感到疑惑的是在对数正态分布和伽马分布之间进行选择,请参阅Gamma与对数正态分布。在其他方面,它们的偏度属性有所不同。特别是,对数正态的对数偏度几乎等于零。伽玛对数的偏度为负。但是如何为负?

7
为什么偏斜数据不是建模的首选?
在大多数情况下,人们谈论变量转换(针对预测变量和响应变量)时,他们都在讨论处理数据偏斜的方法(例如对数转换,Box和Cox转换等)。我无法理解的是为什么消除偏斜被认为是一种常见的最佳实践?偏度如何影响诸如基于树的模型,线性模型和非线性模型之类的各种模型的性能?什么样的模型更受偏斜的影响,为什么?

1
我应该对高度偏斜的数据使用t检验吗?请科学证明吗?
我有一个高度偏斜的(看起来像指数分布)数据集有关用户参与的样本(例如,帖子数),样本大小不同(但不少于200个),我想比较它们的平均值。为此,我使用了两个样本的不成对t检验(以及当样本具有不同的方差时,使用带有Welch因子的t检验)。据我所知,对于非常大的样本,样本不是正态分布的都没关系。 有人回顾了我所做的事情后说,我使用的测试不适合我的数据。他们建议在使用t检验之前对样本进行对数转换。 我是一个初学者,因此使用“参与度指标的对数”回答我的研究问题确实让我感到困惑。 他们错了吗?我错了吗?如果它们是错误的,是否有我可以引用/展示的书籍或科学论文?如果我错了,应该使用哪个测试?

5
产生相关非正态数据的方法
我对寻找一种生成相关的非正常数据的方法感兴趣。因此,理想情况下,某种类型的分布将协方差(或相关)矩阵作为参数,并生成近似该分布的数据。但是这里有个要点:我试图找到的方法应该具有灵活性,也可以控制其多元偏度和/或峰度。 我熟悉Fleishman的方法和正态变量的幂方法的使用,但是我相信大多数扩展只允许用户使用边际偏度和峰度的某些组合,而将多元偏度/峰度留在那儿。我想知道的是,是否有一种方法可以帮助指定多元偏度和/或峰度,以及一些相关性/协方差结构。 大约一年前,我参加了一次关于系蝇分布的研讨会,我记得这位教授随便提到了通过使用葡萄系蝇,一个人可以产生的数据在其一维边缘中的每一个都对称,但共同偏斜,反之亦然。 -反之亦然。或者,甚至更进一步,任何维数较低的边距在保持最大维数对称(或不对称)的同时,可能会有些偏斜或峰度。我一直对这种灵活性可能存在的想法感到惊讶,我一直试图找到某种描述上述方法的文章或会议论文,但我没有成功:(。不必通过使用copulas,我愿意接受任何可行的方法。 编辑:我添加了一些R代码,以尝试显示我的意思。到目前为止,我只熟悉Mardia对多元偏斜和峰度的定义。当我第一次解决问题时,我天真地想到如果我使用具有偏斜边线(在本例中为beta)的对称copula(在本例中为高斯),则对边沿的单变量检验会产生显着性,但Mardia对多变量偏斜/峰度的检验会很有意义。不重要。我尝试了一下,但并没有按我预期的那样出来: library(copula) library(psych) set.seed(101) cop1 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), c("beta", "beta"),list(list(shape1=0.5, shape2=5), list(shape1=0.5, shape2=5)))} Q1 <- rmvdc(cop1, 1000) x1 <- Q1[,1] y1 <- Q1[,2] cop2 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), c("norm", "norm"),list(list(mean=0, sd=1), list(mean = 0, sd=1)))} Q2 <- rmvdc(cop2, 1000) x2 <- Q2[,1] y2 <- Q2[,2] …

4
数据倾斜时应使用均值吗?
入门级应用统计文本通常通过解释均值对样本数据和/或样本中的异常值敏感,从而将均值与中值区分开来(通常是在描述性统计的背景下,并使用均值,中值和众数来激发集中趋势的汇总)。与偏斜的人口分布有关,这可以用作断言当数据不对称时首选中位数的理由。 例如: 给定数据集中集中趋势的最佳度量通常取决于值的分布方式...。当数据不对称时,中位数通常是集中趋势的最佳度量。因为均值对极端观察敏感,所以它会向偏远的数据值的方向拉动,结果可能会导致过度膨胀或过度缩小。” —Pagano和Gauvreau,(2000年),《生物统计学原理》,第二版。 (宝洁公司就在眼前,顺便说一句,本身并没有单独列出。) 作者因此定义了“集中趋势”:“一组数据最常被研究的特征是其中心,即观察趋向于聚集的点。” 这让我感到不那么直截了当的说仅使用中位数period的方式,因为只有在数据/分布对称时才使用均值与仅在等于中位数时才使用均值是同一回事。编辑: whuber正确地指出,我正在将中央趋势的有效度量与中位数相混淆。因此,重要的是要牢记,我正在讨论算术平均值与入门级应用统计学中的中位数的特定框架(此处不考虑模式,其他动机不倾向于集中趋势)。 与其以均值偏离中位数的行为来判断均值的效用,不应该简单地将它们理解为两种不同的中心度度量方法吗?换句话说,对偏度敏感是均值的特征。同样可以有效地辩称“中位数不好,因为它对偏斜度不敏感,因此仅在等于均值时才使用它。” (该模式显然不涉及此问题。)

3
改变偏斜的分布
假设我有一个变量,它的分布正偏斜到很高的程度,这样取对数将不足以使它在正态分布的偏斜范围内。目前我有什么选择?如何将变量转换为正态分布?


2
对分布均值的瞬间有直觉吗?
有人可以提供一个直觉来解释为什么概率分布的较高矩(如第三和第四矩)分别对应于偏度和峰度吗?具体来说,为什么对三次方或三次方的均值方差最终转化为偏度和峰度的量度?有没有办法将此与函数的三阶或四阶导数联系起来?pXpXp_X 考虑偏度和峰度的以下定义: Skewness(X)=E[(X−μX)3]/σ3,Kurtosis(X)=E[(X−μX)4]/σ4.Skewness(X)=E[(X−μX)3]/σ3,Kurtosis(X)=E[(X−μX)4]/σ4.\begin{matrix} \text{Skewness}(X) = \mathbb{E}[(X - \mu_{X})^3] / \sigma^3, \\[6pt] \text{Kurtosis}(X) = \mathbb{E}[(X - \mu_{X})^4] / \sigma^4. \\[6pt] \end{matrix} 在这些方程式中,我们将归一化值提升至幂,并采用其期望值。我不清楚为什么将标准化随机变量提高到4的幂会产生“峰值”,或者为什么将标准化随机变量提高到3的幂会带来“偏斜”。这似乎是神奇而神秘的!(X−μ)/σ(X−μ)/σ(X-\mu)/\sigma


2
偏离ANOVA中的正态性假设:峰度或偏度更重要吗?
Kutner等人应用线性统计模型。陈述了以下有关偏离ANOVA模型正态性假设的内容:就推断的影响而言,误差分布的峰度(比正态分布或多或少达到峰值)比分布的偏度更为重要。 我对此声明感到有点困惑,并且没有在书中或在线上找到任何相关信息。我很困惑,因为我还了解到,尾巴较重的QQ曲线表明线性回归模型的正态性假设“足够好”,而偏斜的QQ曲线则更受关注(即,进行转换可能会合适) 。 我是否对ANOVA进行同样的推理,并且对单词的选择(就推理的影响而言更重要)选择得很差,是否正确?也就是说,偏斜的分布会产生更严重的后果,应避免,而少量峰度是可以接受的。 编辑:正如rolando2所说,很难说一个在所有情况下都比另一个更重要,但是我只是在寻找一些一般的见识。我的主要问题是,我被告知,在简单的线性回归中,尾巴较重(=峰度?)的QQ曲线是可以的,因为F检验对此非常有力。另一方面,倾斜的QQ曲线(抛物线形)通常是一个更大的问题。尽管ANOVA模型可以转换为回归模型,并且应该具有相同的假设,但这似乎与我的教科书为ANOVA提供的指导方针直接背道而驰。 我确信我忽略了某件事,或者我有一个错误的假设,但是我无法弄清楚这可能是什么。


2
如果某些时间点的响应严重偏斜,而某些时间点没有进行重复测量研究,该怎么办?
通常,当在纵向设计中遇到连续但偏斜的结果度量时(例如,具有一个对象间效应),通常的方法是将结果转换为正态。如果情况极端,例如观察结果被截断,则可能会花哨并使用Tobit生长曲线模型或类似的模型。 但是,当我看到结果通常在某些时间点分布然后在其他时间严重偏斜时,我会感到茫然。转换可能会堵塞一个泄漏,但会引发另一个泄漏。在这种情况下,您有什么建议?我是否不知道混合效果模型的“非参数”版本? 注意:一个应用示例是一系列教育干预措施前后的知识测验分数。分数开始正常,但随后聚集在量表的高端。


3
正态分布的偏度和峰度值的范围
我想知道数据被认为是正态分布的偏度和峰度的取值范围是多少。 我读了很多论据,而且大多数情况下我的回答很混乱。有人说偏度和峰度是正态分布的可接受范围。有人说的偏斜度是可以接受的范围。我在这里找到了详细的讨论:关于此问题的正常数据分布,偏度和峰度的可接受范围是多少?但是我找不到任何决定性的陈述。(- 2 ,2 )(- 1.96 ,1.96 )(−1,1)(−1,1)(-1,1)(−2,2)(−2,2)(-2,2)(−1.96,1.96)(−1.96,1.96)(-1.96,1.96) 决定此间隔的依据是什么?这是一个主观选择吗?或在这些间隔后面有什么数学解释?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.