Answers:
关于如何将数据拟合为偏正态分布,您可以根据第一个原理计算最大似然估计量。首先要注意的是用于与位置参数的偏斜正态分布的概率密度函数,尺度参数和形状参数就是ω α
其中是标准法线密度函数,是标准法线CDF。请注意,此密度是我对此问题的回答中描述的班级的成员。Φ (⋅ )
基于此分布的独立观察值的样本得出的对数似然为:
事实上,此MLE没有封闭式解决方案。但是,它可以通过数值求解。例如,在中R
,您可以将似然函数编码为(请注意,我使它的紧凑度/效率低于使它如何完全透明地计算上面的似然函数的可能性):
set.seed(2345)
# generate standard normal data, which is a special case
n = 100
X = rnorm(n)
# Calculate (negative) log likelihood for minimization
# P[1] is omega, P[2] is xi and P[3] is alpha
L = function(P)
{
# positivity constraint on omega
if( P[1] <= 0 ) return(Inf)
S = 0
for(i in 1:n)
{
S = S - log( dnorm( (X[i] - P[2])/P[1] ) )
S = S - log( pnorm( P[3]*(X[i] - P[2])/P[1] ) )
}
return(S + n*log(P[1]))
}
现在,我们只是在数值上最小化此函数(即,使可能性最大化)。您可以执行此操作,而不必使用Simplex算法(这是)中optim()
软件包的默认实现来计算导数R
。
关于如何测试偏度:我们可以通过限制并进行似然比测试,显式测试偏态 -正常与正常(因为正常是子模型)。
# log likelihood constraining alpha=0.
L2 = function(Q) L(c(Q[1],Q[2],0))
# log likelihood from the constrained model
-optim(c(1,1),L2)$value
[1] -202.8816
# log likelihood from the full model
-optim(c(1,1,1),L)$value
[1] -202.0064
# likelihood ratio test statistic
LRT = 2*(202.8816-202.0064)
# p-value under the null distribution (chi square 1)
1-pchisq(LRT,1)
[1] 0.1858265
因此,我们不会拒绝(即无偏斜)的原假设。
这里的比较很简单,因为正态分布是一个子模型。在其他的,更普遍的情况下,你可以通过比较,例如比较歪斜正常到其他参考分布,AIC S(如做在这里),如果你在所有竞争配合使用最大似然估计。例如,您可以在gamma分布和偏斜法线下按最大似然拟合数据,并查看增加的似然度是否证明偏斜法线(3个参数代替2个)的复杂度是合理的。您也可以考虑使用一个样本Kolmogorov Smirnov检验将数据与偏态正态族的最佳拟合估计值进行比较。
我是一名统计专家,已经从事该行业超过30年,在阅读这篇文章之前,我从未听说过偏态正态分布。如果您有高度偏斜的数据,为什么特别要看偏斜法线而不是对数正态或伽玛?任何时候只要有参数分布族,例如gamma,对数正态或偏正态,就可以应用拟合优度检验,例如卡方或Kolmogorov-Smirnov。
因此,最后我的解决方案是下载fGarch软件包, snormFit
并由fGarch提供,以将参数的MLE传递给Skewed-Normal。
然后,使用dsnorm
fGarch提供的功能将这些参数插入Kolmogorov-Smirnov测试。
查看http://www.egyankosh.ac.in/bitstream/123456789/25807/1/Unit6.pdf和http://en.wikipedia.org/wiki/Skewness
您可以使用Karl Pearson检验来确定偏斜度。第三矩与标准偏差的三次方之比称为偏度系数。对称分布的偏度= 0