确定繁重的分布式过程是否已显着改善


12

我观察更改前后的流程处理时间,以了解流程是否因更改而有所改善。如果减少了处理时间,则过程得到了改善。处理时间的分布非常复杂,因此基于平均值进行比较是不明智的。相反,我想知道更改后观察到较短处理时间的可能性是否明显高于50%。

令为更改后处理时间的随机变量,而为更改前的处理时间。如果P(X <Y)显着高于0.5,那么我想说这个过程已经改善了。ÿXY0.5P(X<Y)0.5

现在我有n观察xiXm观测yjYP(X <Y)观测概率为\ hat p = \ frac {1} {nm} \ sum_i \ sum_j 1_ {x_i <y_j}P(X<Y)p^=1nmij1xi<yj

给定观测值x_iy_j,我能怎么说P(X <Y)P(X<Y)xiyj

Answers:


12

您的估计等于Mann-Whitney统计量除以(感谢Glen!),因此等于Wilcoxon秩和统计量(也称为Wilcoxon-Mann-Whitney统计量) : ,其中是的样本大小(假定无联系。)因此,您可以使用Wilcoxon检验的表/软件并将其转换回获得置信区间或值。p^UmnWW=U+n(n+1)2nyUp

令为的样本大小, =。然后,渐近地mxNm+n

W=Wm(N+1)2mn(N+1)12N(0,1)

资料来源: Hollander and Wolfe,《非参数统计方法》,第p页。117,但可能大多数非参数统计书都可以帮助您。


@Glen_b-谢谢,我已经更新了答案。您非常慷慨地猜到了关于错误原因的原因!
jbowman

13

@jbowman为估计的问题提供了一个(不错的)标准解决方案,这就是应力强度模型。θ=P(X<Y)

Baklizi和Eidous(2006)提出了另一个非参数替代方案,用于和独立的情况。如下所述。ÿXY

根据定义,我们有

θ=P(X<Y)=FX(y)fY(y)dy,

其中是的CDF和是密度。然后,使用的样品和我们可以得到核估计的和,因此和估计 X ˚F ý ý X ý ˚F X ˚F ÿ θFXXfYYXYFXfYθ

θ^=F^X(y)f^Y(y)dy.

这在下面的R代码中使用高斯内核实现。

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

# Example when X and Y are Cauchy
datx = rcauchy(100,0,1)
daty =  rcauchy(100,0,1)

nonpest(datx,daty)

为了获得的置信区间,您可以按以下方式获取此估计量的引导样本。θ

# bootstrap
B=1000
p = rep(0,B)

for(j in 1:B){
dat1 =  sample(datx,length(datx),replace=T)
dat2 =  sample(daty,length(daty),replace=T)
p[j] = nonpest(dat1,dat2)
}

# histogram of the bootstrap sample
hist(p)

# A confidence interval (quantile type)
c(quantile(p,0.025),quantile(p,0.975))

也可以考虑其他类型的引导时间间隔。


2
有趣且不错的论文参考(+1)。我将其添加到我的曲目中!
jbowman 2012年

0

考虑成对的差值, 那么对于是iid Bernoulli随机变量。所以数的是二项式。然后是概率和置信区间的无偏估计,并且可以基于二项式进行假设检验。 P X - ý < 0 = p { X - ý < 0 } = 1 2 n X X i < Y i n p = P X i - Y i < 0 X / nXiYiP(XiYi<0)=pI{XiYi<0}i=1,2,..,nXXi<Yin p=P(XiYi<0)X/n


2
配对的基础是什么,迈克尔?
ub

OP表示:“让X为更改后的处理时间的随机变量,让Y为更改前的处理时间”,因此Xi在干预之后,Yi在干预之后。
Michael R. Chernick 2012年

您是否注意到计数(可能)有所不同?您似乎假设。我的理解是,“过程”是暂时的,并且在事件之前采样,而在事件之后采样。X i Y jm=nXiYj
ub

1
你是对的。我猜像上面jbowman建议的Wilcoxon之类的两种样本测试是合适的。有趣的是,Mann-Whitney表格和该测试计算的是Xis <Yjs的数量。
Michael R. Chernick 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.