有人可以提供偏态为零但不对称的单峰分布的示例吗?


31

在2010年5月,维基百科用户Mcorazao在偏度文章中添加了一个句子:“零值表示这些值在平均值的两侧相对均匀地分布,通常但不一定意味着对称分布。” 但是,Wiki页面没有实际的发行示例,可以打破此规则。至少在前20个结果中,谷歌搜索“具有零偏度的示例非对称分布”也没有给出任何实际示例。

使用这样的定义,偏斜由和R计算得出E[(Xμσ)3]

sum((x-mean(x))^3)/(length(x) * sd(x)^3)

我可以构造一个小的任意分布以降低偏度。例如,分布

x = c(1, 3.122, 5, 4, 1.1) 

产生的偏斜。但这是一个很小的样本,而且与对称性的偏差也不大。因此,是否可以使用一个高度不对称但仍具有接近零偏度的峰构造一个更大的分布?5.64947105


3
您是否希望分配是单峰的?标题是这样,但文字几乎没有提及这一点。
Dilip Sarwate 2012年

@Dilip是的,如果分布是单峰的,我会发现它更有趣,因为作为中心矩的偏斜实际上没有其他意义。
安迪·麦肯齐

Answers:


28

考虑离散分布。 支撑在一个值由非负概率确定受条件是:(a)它们的和为1和(b)的偏度系数等于0(等于第三中心矩为零)。剩下个自由度(在方程求解的意义上,不是统计上的自由度!)。我们可以希望找到单峰的解决方案。x 1x 2x k p 1p 2p k k 2kx1,x2,,xkp1,p2,,pkk2

为了使搜索示例更容易,我寻求了一个小对称矢量支持的解决方案,其唯一模式为,均值为零以及零偏度。一种这样的解决方案是。0 p 1... p 7= 1396 3286 9586 47386 8781 3930 1235 / 75600x=(3,2,1,0,1,2,3)0(p1,,p7)=(1396,3286,9586,47386,8781,3930,1235)/75600

概率函数

您可以看到它是不对称的。

这是一个更明显的不对称解,(是不对称的)和:p = 1 18 72 13 4 / 108x=(3,1,0,1,2)p=(1,18,72,13,4)/108

概率函数2

现在很明显发生了什么:因为均值等​​于,所以负值在第三时刻贡献了和,而正值贡献了和,就可以完全平衡负贡献。我们可以采用大约的对称分布,例如和,并从移动一点质量到,从到的质量略微下降,而到的质量略有下降- 3 3 = - 27 18 × - 1 3 = - 18 4 × 2 3 = 32 13 × 1 3 = 13 0 X = - 1 0 1 p = 1 4 1 / 6 + 1 + 2 + 1 - 10(3)3=2718×(1)3=184×23=3213×13=130x=(1,0,1)p=(1,4,1)/6+1+2+110 03,将平均值保持为,将偏度保持为,同时创建不对称性。同样的方法将在保持不对称的同时保持连续分布的零均值和零偏度。如果我们对质量转移不太积极,它将保持单峰。00


编辑:连续分布

由于问题不断出现,让我们举一个连续分布的示例。彼得·弗洛姆(Peter Flom)有一个好主意:研究法线的混合。两个法线的混合不会起作用:当其偏度消失时,它将是对称的。下一个最简单的情况是三个法线的混合。

在适当选择位置和比例后,三个法线的混合取决于六个真实参数,因此应具有足够的灵活性以产生不对称的零偏度解决方案。要找到一些,我们需要知道如何计算法线混合的偏度。其中,我们将搜索任何单峰的(可能没有)。

现在,通常,当为奇数时,标准正态分布的(非中心)矩为零,否则等于。当我们重新调整标准正态分布使其具有标准差,矩将乘以。当我们将任何分布都移动,新的时刻可以用直到并包括的时刻来表示。 - [R 2 - [R / 2 Γ 1 - [Rrthr σ- [Rσřμ- [Rř2r/2Γ(1r2)/πσrthσrμrthr。混合分布的矩(即它们的加权平均值)与各个矩的加权平均值相同。最后,当第三中心矩为零时,偏度恰好为零,这很容易根据前三个矩来计算。

这使我们对这个问题有了代数攻击。我发现的一个解决方案是三个法线的均等混合,其参数等于,和。其平均值等于。此图以蓝色显示pdf,以红色表示分布的pdf 平均值。它们的不同表明它们都是不对称的。(数约为,不等于的平均值。) 它们的构造都具有零偏度0 1 1 / 2 1 0 (μ,σ)(0,1)(1/2,1)0+1/2+0/3=1/60.05192161/6(0,127/18)(0,2.65623)(0+1/2+0)/3=1/60.05192161/6

连续的例子

这些图表明它们是单峰的。(您可以使用微积分检查以找到局部最大值。)


(+1)非常聪明的答案。但是,这可以与连续分布一起使用吗?这种转变会不会产生微小的小模式?我可能没有想好...
2012年

1
Macro,您的想法很好,我们都应该对此表示怀疑。诀窍是转移很小的数量,分布在广泛的范围内。一阶导数测试将使您能够检查可能的模式,并为证明这种形式的足够小的偏移不会产生新模式提供依据。
ub

感谢您的回答!这与我直觉上的想法相似,尽管我无法用语言很好地表达它-您必须“平衡”分布两侧的质量。让我想知道是否有定型的方法可以执行这种平衡行为。
Andy McKenzie 2012年

安迪(Andy)是一种方法,先从离散解开始,然后将其与正态分布卷积。在这种情况下,单峰性要求将迫使该正态分布具有较大的标准偏差。即使这样,如果卷积没有明显改变必要的属性(例如零偏度),或者以可预测的方式改变了它,那么您就可以对问题进行数学处理。从某种意义上说,尽管严格意义上讲这不是卷积运算(因为三个法线具有不同的标准差),但我最近的编辑可以看作是一次攻击。
ub

2
我已经检查过,安迪:将离散解与正态分布卷积不会改变偏度。当给该正态分布的标准偏差在0.57或更大时,结果是单峰的。像基础离散分布一样,它仍然具有零均值,零偏度并且是不对称的。将其与标准正态分布混合起来就可以控制质量在标准正态分布和离散分布之间的运动:这可能满足您对“定型”方法的要求。
ub

23

这是我在https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html#中找到的一个,我发现它很好,并在R中再现:逆毛刺或形状参数和:k=0.0629c=18.1484

g(x)=ckx(c+1)[1+xc](k+1)

其平均值为0.5387,标准差为0.2907,偏度为0.0000,峰度为2.0000。消息来源还称其为“象素分布”: 在此处输入图片说明

我在R中的复制品是用

library(actuar)
library(knotR)

# a nonsymmetric distribution with zero skewness
# see https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html#

c <- 18.1484
k <- 0.0629

x <- seq(0,1.5,by=.0001)

elephant.density <- dinvburr(x, k, c)
plot(x,elephant.density, type="l")
polygon(c(min(x),x),c(min(elephant.density),elephant.density), col="grey")
points(0.8,0.8, pch=19, cex=2)

# "ears" created via https://www.desmos.com/calculator/cahqdxeshd
ear.x <- c(0.686, 0.501, 0.42, 0.68)
ear.y <- c(0.698, 0.315, 1.095, 0.983)

myseg(bezier(cbind(ear.x, ear.y)), type="l")

EX <- gamma(k+1/c)*gamma(1-1/c)/gamma(k) # see p6 of https://wwz.unibas.ch/uploads/tx_x4epublication/23_07.pdf
EX2 <- gamma(k+2/c)*gamma(1-2/c)/gamma(k)
EX3 <- gamma(k+3/c)*gamma(1-3/c)/gamma(k)
(skewness <- (EX3 - 3*EX*(EX2-EX^2)-EX^3)/(EX2-EX^2)^(3/2)) # zero to three digits: 0.0003756196

如该输出所示,这些参数值的偏斜度不是零到四位数。这是一个针对和优化器:kc

   # optimize skewness a bit further
    skewval <- 1

while (skewval > 10^(-10)){
  optskew.k <- uniroot(skewness.fun, lower = k*.95, upper = k*1.1, tol=skewval^2, c=c)
  skewval <- optskew.k$f.root
  k <- optskew.k$root

  optskew.c <- uniroot(skewness.fun, lower = c*.95, upper = c*1.1, tol=skewval^2, k=k)
  skewval <- optskew.c$f.root
  c <- optskew.c$root
}

屈服

> print(c)
[1] 18.89306

> print(k)
[1] 0.05975542

> print(skewval)
[1] -1.131464e-15

感谢您的修改。就是说,我无法将0.0000的偏斜度重现为四位数,而是获得了0.0001245138(请参见R代码中的下一个编辑内容)。
Christoph Hanck

可能可以运行一个简单的优化器来查找和值,以使偏度尽可能接近零。它应该是几行或什至一行。您已经在最后一行中分析了损失函数,R中是否有合适的通用优化器?ck
变形虫说莫妮卡(Monica)恢复

实际上是0.0003756196。0.0001245138已经经过一些初始优化,此处错误给出。我会看看的。
Christoph Hanck

@amoeba,我尝试了一些优化,但是我并没有声称以一种聪明的方式完成了优化,我对优化的经验很少。
Christoph Hanck

2
零到三位数(将近四位数)的偏斜在我看来已经足够了;这并不是更精确的值会使它看起来有所不同。如果偏斜度会在那个附近过零,并且很明显,如果需要更高的精度,则可以在哪个方向调整值,我认为这已经足够。但是为额外的努力而声名狼藉。(顺便说一下,这是一个可爱的例子。)
Glen_b-恢复莫妮卡(Monica

9

考虑实线正一半的分布,该分布从0线性增加到众数,然后在众数右边成指数增长,但在该众数处是连续的。

这可以称为三角指数分布(尽管它的确看起来有点像鱼翅)。

令为模的位置,为指数的速率参数。θλ

随着增加,分布逐渐减少。当增加到,第三时刻从正数变为负数:λθλθ6.15

零偏的三角指数

Brizzi(2006)将此族分布称为“两面”分布,并讨论了第三矩偏度为零的交叉点。希佩尔(2005)呈现在那个交叉点几乎是一个例子在这里[1][2]

螺纹零偏度和零超峰度为零的非正态分布?有一些不对称的例子,包括一个小的离散例子和另一个连续的单峰例子:

零偏度的单峰高斯混合

零偏度的离散单峰分布-或等效地,样本-大小大小都很容易构造。

这是一个示例,您可以将其视为样本,或者(通过将原始频率除以3000)作为pmf(“ x”值是获取的值,“ n”是该值在样本中出现的次数) ):

x:  -2   -1    0    1    2    3    4    5    6    7    8    9   10
n: 496  498  562 1434    2    1    1    1    1    1    1    1    1

由上面构造的概率质量函数图

此示例由三点分布构建:

x:          -2              1                  c
n:   c(c-1)(c+1)/6     c(c-1)(c+1)/3 - c       1

跨越3到10之间的各个值。此参数化(通过)的三点“原子”具有和,这又意味着跨各种选择的混合具有零偏度。(您所做的任何事情都不能小于不对称且第三中心矩为零的三个点之间的分布。仅在几个点上收集一些简单的零件,例如,这些零件组成了整洁的构建基块,可以从中构建更大的结构。)ccinixi=0inixi3=0c

可以构造其他各种“原子”的方式,但是本示例仅使用这种一种。在诸如此类的原子组合中,添加了一些对称放置的值,以填充剩余的空穴并确保单峰性而不会破坏均值和三次矩的结构。

[1] Brizzi,M.(2006),
“结合三角形和指数特征的偏斜模型:两面分布及其统计属性”,《
奥地利统计》35:4,p455–462
http://www.stat .tugraz.at / AJS / ausg064 /

[2]冯·希佩尔,PT(2005年),
“平均值,中位数和斜度:纠正教科书规则”
,《统计教育杂志》第13卷,第2期,
http://ww2.amstat.org/publications/jse/v13n2/ vonhippel.html


3
也许可以称之为“鲨鱼鳍”?
Glen_b-恢复莫妮卡

@Glen_b确实完全是鱼翅。
Alecos Papadopoulos

2

当然。尝试这个:

skew= function (x, na.rm = FALSE) 
 {
    if (na.rm)    x <- x[!is.na(x)]             #remove missing values
    sum((x - mean(x))^3)/(length(x) * sd(x)^3)  #calculate skew   
 }

set.seed(12929883) 
x = c(rnorm(100, 1, .1), rnorm(100, 3.122, .1), rnorm(100,5, .1), rnorm(100, 4, .1), rnorm(100,1.1, .1))

 skew(x)
 plot(density(x))

(您已经做了辛苦的工作!)


1
很好,我喜欢。+1
gung-恢复莫妮卡

4
它不是双峰的,而是可怕的峰的。尝试绘制密度;curve(0.2*(dnorm(x, 1, .1) + dnorm(x, 3.122, .1) + dnorm(x, 5, .1) + dnorm(x, 4, .1) + dnorm(x, 1.1, .1)), 0,10)
2012年

1
以这种方式生成的数据当然不是单峰的。您需要做的就是逐字剪切并粘贴代码。实际上,正态分布变量的混合永远不会是单峰的(除非混合比例之一为1)。
2012年

8
@Macro,那是不正确的。参见例如Roeder 1994(JASA)的摘要,它得出的著名结果是“两个混合法线的密度不是双峰的,除非均值相差至少2个标准差”。如果它们之间的距离小于此距离,则混合物是单峰的。
来宾

1
你是对的@来宾。当我发表我的文章时,我已经忘记了这种可能性
Macro

2

对于零偏度,我们需要 或等效地,

E[(Xμσ)3]=0
E[(Xμσ)3|Xμ]+E[(Xμσ)3|X>μ]=0.

现在,对于给定的均值和方差,在和 的右侧选择质量为零的任意两个分布和 并定义以匹配如果在左边,否则与匹配。(不知道确切的表示法,有人愿意帮助吗?)ž μ ë [ ÿ - μYZμ Xÿμμ-Ž

E[(Yμσ)3]=E[(Zμσ)3]
XYμ(μZ)

如果和的PDF 在的左侧增加(除了在的右侧为零),则结果分布将是单峰的。ž μ μYZμμ


1
您如何保证分布是单峰的?
Dilip Sarwate 2012年

感谢您指出了这一点。和的PDF 必须严格增加直到,然后降至零。ž μYZμ
krlmlr 2012年

这是正确的主意,但仍然需要做一些工作,因为在组合和时可以改变。ÿ žσYZ
ub

@whuber:该死。我知道有必须是有些缺陷...... :-)
krlmlr

2

以下离散分布是不对称的,并且具有零偏度:Prob(-4)= 1/3,Prob(1)= 1/2,Prob(5)= 1/6。我在Doric等人的论文中(Qual Quant(2009)43:481-493; DOI 10.1007 / s11135-007-9128-9


+1签出,它是单峰的。那是最简单的例子。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.