如果没有故障,如何判断故障的可能性?


50

我想知道是否有一种方法可以判断某件产品(某产品)发生故障的可能性,如果我们在该领域拥有1年的100,000个产品并且没有故障?接下来出售的10,000种产品之一发生故障的概率是多少?


4
有人告诉我这不是真正的可靠性问题。没有产品具有如此低的故障率。
阿克萨卡(Aksakal)

您需要一个模型来分配可能的成功/失败率,然后才能从统计数据推断出实际成功/失败率的概率。您的描述提供了很少的基础来推断/假设这样的分布。
RBarryYoung 2015年

1
@RBarryYoung请检查所提供的答案-他们提供了一些有趣且有效的方法来解决问题。如果您不同意这些方法,请随时对其进行评论或提供您自己的答案。
蒂姆

2
@Aksakal-如此低的故障率似乎不是不可能的,如果它是具有高价值的简单产品,并且在发生故障(例如外科手术器械)时发生如此高的风险以至于它需要经过测试和检查的水平(并且可能是独立的)认证)。当然,情况可能恰恰相反,该产品的价值可能太低,以致最终用户根本没有报告缺陷产品的问题(确定口香糖制造商报告的缺陷率低于1/100000吗?),消费者只是丢弃了它并尝试一个新的。
约翰尼

@Johnny,当摩托罗拉想出了6σ他们曾经夸口说有每100万个产品,或类似的东西3次失败。
Aksakal,2015年

Answers:


43

产品失效的可能性肯定是时间和使用的函数。我们没有任何可用的数据,并且只有一年没有任何故障(恭喜!)。因此,无法从您的数据中估算出这方面(称为生存函数)。

但是,您可以将一年之内的失败视为二项分布。您仍然没有失败,但是现在这是一个普遍的问题。一个简单的解决方案是使用3规则,规则对于(您确实拥有)是准确的。具体而言,可以得到上限单侧95%置信区间(即,下限是0一年内)上出现故障的真实概率为3 / Ñ。在您的情况下,您有95%的信心认为利率低于0.00003N03/N0.00003

您还询问了如何计算下一个10k中的一个或多个失败的概率。扩展上述分析的一种快速,简单(尽管极端)的方法是仅将上限用作基础概率,并使用相应的二项式CDF得出不会出现失败的概率。使用代码,我们可以做到:,这有机会在接下来的10k产品中看到一个或多个故障。具有使用上限,这是不是至少有一个失败的概率的最佳点估计,而你可以说这是不太可能的概率1失败多于26 0R1-pbinom(0, size=10000, prob=0.00003)0.2591851126%(认识到这是一个有点“手摇”的帧)。另一种可能性是使用@amoeba根据拉普拉斯继承规则估算的建议。继承的规则规定的故障的估计概率是,其中˚F是失败的次数。在这种情况下p = 9.9998 × 10 - 06,以及用于的预测概率计算1个+故障在下一10,000 ,产生,或(F+1)/(N+2)Fp^=9.9998×10061+1-pbinom(0, size=10000, prob=9.9998e-06)0.0951612210%


3
+1。之前我还没有听说过“ 3法则”。我想知道3的规则与“拉普拉斯的继承规则”之间是否有任何联系?根据后者(如果我正确应用),失败的可能性可以估计为1/(N+2)
变形虫说莫妮卡

14
@amoeba这个3的规则是一个95%的单方面置信度限制。假设故障计数具有二项式分布。那么,没有失败的机会是1 - p n。为了使该大于5 ,解决1 - p ñ0.05p。使用日志1 - p - p为小p,溶液是p - 日志(n,p)(1p)n5%(1p)n0.05plog(1p)pp。由于 0.05 = 1 / 20 ë 3,我们得到 p 3 / Ñ。这就是“ 3的规则”。值得知道,因为现在您想要调整置信度就知道如何更改“ 3”,并且还可以将其求反以找到检测 p或更大比率所需的最小 nplog(0.05)/n0.05=1/20e3p3/nnp
whuber

1
就像我提到的@amoeba一样,我在失败概率之前采取了统一措施。我相信,不同的先验会导致截然不同的结果。
Yair Daon 2015年

1
您的编辑进度不错(+1)。但是,这引起了解释问题。我们不能“确定”该机会不超过因为我们不能完全确定真正的潜在机会。我们在p上没有“上限” ,只有一个置信度上限。当您对未来事件做出预测时,您需要(a)对其进行估计,并且(b)为其提供界限。看看这样的:给我们上界ŸX 二项式ñ p ÿ 二项式p 独立,有条件的26%pYXBinomial(n,p)YBinomial(m,p)。这些边界是一个预测间隔 ÿ基于 XX=0YX
ub

2
Yay代表“三个规则”。我的拳头是在很多年前的“美国医学会杂志”的简短注释中看到的。jama.jamanetwork.com
article.aspx?articleid=

25

您可以采用贝叶斯方法。用表示失败的概率,并将其视为随机变量。先验的,你看到的实验结果之前,你可能会认为,Θ ü 0 1 。如果您信任的工程师使这款产品可靠,也许你可以采取Θ ü 0 0.1 左右。这取决于你。然后,您可以使用贝叶斯定理来计算θ的后验分布。表示一个您已经观察到的事件(n个实验,失败次数为零)。ΘΘU(0,1)ΘU(0,0.1)θAn

一切都很简单:Θ是均匀的,所以pθ是一个常数。既然你运行ñ实验,p|θ不只是概率的故障ň失败的概率伯努利试验θ

p(Θ=θ|A)=p(A|Θ=θ)p(Θ=θ)p(A)=p(A|θ)p(θ)p(A|θ)p(θ)dθ.
Θp(θ)np(A|θ)nθ

一旦有了你金:可以计算任何事件的概率通过integrateion:P= p | θ p θ |d θp(θ|A)BP(B)=p(B|θ)p(θ|A)dθ

下面,我按照上述方法研究详细的解决方案。我将使用一些标准的快捷方式。

让前得到。然后: p θ |α p | θ 1 = 1 - θ ñ 归一化常数p = p | θ p θ ð θ被发现是1 ÑU(0,1)

p(θ|A)p(A|θ)1=(1θ)n.
p(A)=p(A|θ)p(θ)dθ -见维基百科网页测试功能β分布。因此, p θ | A = 1 - θ nB(1,n+1),这与参数β分布1Ñ+1p(θ|A)=(1θ)nB(1,n+1)1,n+1

B表示明年产品没有故障的可能性。至少一个故障的概率为1 - PB 。然后 1 - PB = 1 - 1 - θ m 1 - θ nmB1P(B)

1P(B)=1(1θ)m(1θ)nB(1,n+1)dθ=B(1,n+m+1)B(1,n+1)

这大概是,使用Ñ = 100 000 = 10 000。不是很令人印象深刻吗?我对失败的概率进行了统一分配。也许您对工程师有更好的先验信念。0.1n=100,000,m=10,000


3
缺少如此简单问题的实际解决方案似乎很奇怪,尤其是当该方法看起来很有希望时。您是否建议计算困难?
whuber

2
@whuber我没有忘记它,我认为最后一步很明显。我所说的“不打动”的意思是,与前100,000次运行中没有失​​败相比,失败的可能性仍然是10%。另外,感谢有关共轭对的评论,我认为这可能会使OP混淆并使他们从重要的事物上分散注意力,因此省略了它。
Yair Daon 2015年

3
显然,是的,但是最终得到的值为0.9时,这就是人们会看到的数字,几乎无论您在前文中对它说什么。为使您不会被误解,明确说明您提供的答案总是有帮助的。(+1表示改进后的答案,BTW)
抱怨

3
n1kkn1ekkk

2
@whuber您认为先验无关紧要的假设在零故障的情况下是不正确的。它很大程度上取决于接近零的斜率,例如,平坦的均匀先验(beta 1,1)和Jeffreys先验(beta 0.5,0.5)将给出实质上不同的后验。
Erik

12

为什么不预测概率有多少产品而不是计算概率?

建模观察

n=100000m=10000p

p1pm+n=110000nXmY

构想问题

0Xn0YmY=u X+Y=uu{0,1,,m}n+mumun+m

p(u;n,m)=Pr(Y=u|X+Y=u)=(mu)(n+mu)=m(m1)(mu+1)(n+m)(n+m1)(n+mu+1).

当时,可使用可比较的公式进行计算X=1,2,.

一个上部预测极限1α为失败的上面提到的最后数量(UPL)票,,是由给定的最小(取决于),用于其中。mtα(X;n,m)uXp(u;n,m)α

解释

的UPL应使用的风险方面解释,之前作为评价观察。 换句话说,假设是一年前,一旦观察到第一个就要求您推荐一种程序来预测下产品中的故障数量。您的客户问tαXYmn

您的程序将低估的机会是什么?我并不是说以后会有更多数据。我的意思是现在,因为我必须立即做出决定而我现在唯一可以得到的机会就是现在可以计算的机会。”Y

您的回应可以是,

现在,该机会不大于,但是如果您打算使用较小的预测,则该机会将超过。αα

结果

对于,和我们可以计算出n=105m=104X=0

p(0,n,m)=1; p(1,n,m)=1110.091; p(2,n,m)=9091099990.0083;

因此,在观察到X=0

  • 对于高达置信度(即当),预测在接下来的产品中最多有失败。1α=90.9%9.1%αtα(0;n,m)=110,000

  • 对于高达置信度(即当),预测接下来的产品中最多有故障。99.2%0.8%α<9.1%tα(0;n,m)=210,000

  • 等等。


评论

这种方法何时,为什么适用? 假设您的公司生产许多不同的产品。在观察了每个个在现场的性能后,它喜欢提供保证,例如“在一年内完全免费更换任何故障”。通过对故障数量具有预测限制,您可以控制必须支持这些保证的总成本。因为您生产许多产品,并且预期失败是由于无法控制的随机情况造成的,所以每种产品的经验都是独立的。从长远来看,控制风险是有意义的n。有时您可能需要支付比预期更多的索赔,但是大多数时候您将支付的索赔更少。如果支付的费用比宣布的还要多,可能会设置很小(并且您可能还会使用更复杂的故障模型!)。否则,如果成本很小,那么您可以放心使用(高)。 这些计算表明如何平衡信心和风险。αα

注意,我们不必计算完整的过程。我们一直等到观察到,然后才执行该特定的计算(此处),如上所示。不过,原则上,我们一开始就可以对所有可能值进行计算。tXXX=0X

贝叶斯方法(在其他答案中有描述)是有吸引力的,并且只要结果在很大程度上不依赖于先验方法就可以很好地工作 不幸的是,当故障率如此之低以致于观察到很少(或没有故障)时,结果对先验的选择很敏感。


+1,但似乎不正确。p(0,n,m)=1
变形虫说恢复莫妮卡

1
@COOLSerdash,因为,并且的项不等于零。up(u,n,m)=1u=1,2...
变形虫说莫妮卡(

1
正如@amoeba所指出的,您获得原因是因为您的并不是真正的,而是(因此应真正表示为例如或类似的名称)。稍后,我在完全按照您的操作进行操作时会遇到一些麻烦,但是我可以确定,无论是什么情况,很遗憾,这都不是所要求的解决问题的正确方法。up(u;n,m)>1p(u;n,m)=(mu)(n+mu)Pr(Y=u|X=0)Pr(Y=u|X+Y=u) = Pr(X=0|X+Y=u)p(0;n,m,u)
Ilmari Karonen

1
@IlmariKaronen谢谢您的评论。没错,我应该更清楚地描述的特征,因为它不是的概率分布-它是有条件的概率-但我相信答案本身仍然是正确的,我我非常有信心这种计算预测极限的方法既正确又传统。我将编辑此帖子以澄清这些要点。p(u;n,m)u
ub

1
@Ilmari我已经进行了编辑-您可以在编辑历史记录中看到它。我不假定先验,仅将预测间隔的定义应用于此问题。如果您想挑战这是否“在统计上有意义”,那么您将发现自己正对这个标准结构提出异议。参见,例如,Hahn&Meeker,《统计间隔》(J. Wiley 1991)。
ub

9

以下是贝叶斯答案:“在10,000种新产品中,如果以前生产的100,000种全部都没有失败,预计会有多少种失败?”,但是您应该考虑对不同先验的敏感性。

假设给定,是条件独立且相同分布的,使得,并使用共轭先验,其中。X1,,XnΘ=θX1Θ=θBernoulli(θ)ΘBeta(a,b)a,b>0

对于,我们有 m<n

E[i=m+1nXi|X1=0,Xm=0]=i=m+1nE[XiX1=0,Xm=0].

对于,我们有 ,其中我们使用了。m+1in

E[XiX1=0,Xm=0]=Pr(Xi=1X1=0,Xm=0)=01Pr(Xi=1Θ=θ)fΘX1,,Xm(θ0,,0)dθ=Γ(m+a+b)Γ(m+a+b+1)Γ(a+1)Γ(a)=am+a+b,
ΘX1=0,,Xm=0Beta(a,m+b)

使用统一的先验()插入数字,您预计失败率约为,而类似Jeffreys的先验()为您提供失败率接近。a=1,b=110%a=1/2,b=1/25%

这种预测性预期看起来并不理想,因为预测性分布高度偏斜。我们可以进一步计算预测分布。由于 就像我们 for。

i=m+1nXi|Θ=θBin(nm+2,θ),
Pr(i=m+1nXi=t|X1=0,Xm=0)=(nm+2t)Γ(m+a+b)Γ(a)Γ(m+b)Γ(t+a)Γ(nt+2)Γ(n+a+2),
t=0,1,,nm+2

我将在稍后计算预测间隔时完成它。95%


3
+1表示结果对先验近0的形状敏感。(值得注意的是,由于当大时似然函数强烈集中在零附近,所以这是先验中真正重要的部分。例如,对于先验,期望与近似成比例,但几乎独立于。统一的先验,先验是还是并没有多大,但是如果我们假设先验像,情况将发生巨大变化。)mBeta(a,b)am+a+bamabU(0,1)U(0,0.01)U(0.01,1)
Ilmari Karonen

6

使用拉普拉斯的日出问题方法,我们得出了产品在一年内失败的概率。接着,概率在一年之内的新产品无失败是 。因此,该至少一个产品的概率将在明年失败是对于该值为。实际上,在胡伯尔的情况下,。

p=1100000+1
n
(1p)n
n
1(11100001)n
n=10000P100000.095P2000000.87

当然,在售出更多产品的同时,您应该继续更新数据,否则最终将失败。


这个答案似乎是不正确的:一个未来日出的计算不仅仅通过乘法来扩展。毕竟,假设将替换为。您是否断言失败的可能性是?您应该将您的答案与Yair Daon答案中的分析以及相关评论进行比较。10,000200,000200000/1000012
ub

@whuber,固定它
Aksakal

1
(1)您计算错误或“ 200000”是“ 20000”的错字。(您应该获得左右。)(2)现在,您的分析复制了Yair Daon结论的一部分,但没有产生完整的后验分布的好处。0.865
ub

@whuber,是的,它少了一个零
Aksakal

5

这个问题提供了几个很好的答案,但是最近我有机会复习了与此主题相关的资源很少,所以我决定分享结果。

零故障数据有多个可能的估计量。让我们将表示为失败次数,将为样本量。给定该数据的最大概率估计失败概率k=0n

(1)P(K=k)=kn=0

由于我们没有观察到样本中的任何失败的事实几乎无法证明它们是不可能的,因此这种估计相当不令人满意。数据不足的知识表明,即使没有观察到,也存在一定的故障概率(尚未)。具有先验知识使我们能够使用贝利(1997),拉扎吉(2002),巴苏(1996)以及卢德布鲁克(Ludbrook)和卢(Lew)(2009)综述的贝叶斯方法。

在简单的估计量中,假设的“上限”估计量(Bailey,1997年)

在零故障情况下,P的估计器产生的概率超过在一次故障情况下,最大似然估计器预测的概率是合理的上限是不合逻辑的

定义为

(2)1n

可以提到。正如Ludbrook和Lew(2009)所述,其他可能性是“ 三元规则”(参见hereWikipedia或Eypasch等人,1995)。

(3)3n

或其他变体:

(4)3n+1

纽康姆和奥特曼(或3.6)的“ 3.7规则”:

(5)3.7n

“四个新规则”:

(6)4n+4

但是根据Ludbrook和Lew(2009)的结论,“三分法则”几乎是“无用的法则”,“ 3.6的法则”(和3.7)“有严重的局限性-如果初始样本量小于50,则它们是非常不准确的”他们不建议使用方法(3)-(6),而是建议使用适当的贝叶斯估计量(请参见下文)。

在贝叶斯估计器中,可以提到几种不同的方法。Bailey(1997)提出的第一个这样的估计是

(7)10.51n

用于估计统一先验下的中位数

(8)10.51n+1

或用于估计该先验条件下的均值

(9)1n+2

假设故障率恒定(泊松分布)的指数故障模式产生的另一种方法

(10)1/3n

如果我们使用带有参数和 beta优先级,则可以使用公式(请参见Razzaghi,2002):ab

(11)aa+b+n

在得出统一的先验(9)。假设Jeffreys先验且则得出a=b=1a=b=0.5

(12)12(n+1)

通常,建议使用贝叶斯公式(7)-(12)。当一些先验知识可用时,Basu等人(1996)建议使用信息先验(11)。由于不存在单一的最佳方法,因此建议您在分析之前复习文献,尤其是当较小时。n


Bailey,RT(1997)。从零故障数据估计。风险分析,17,375-380。

Razzaghi,M。(2002)。关于样本中零出现的二项式成功概率的估计。 现代应用统计方法杂志,1(2),41。

Ludbrook,J.和Lew,MJ(2009)。估计罕见并发症的风险:“三个规则”是否足够好?ANZ外科杂志,79(7-8),565-570。

Eypasch,E.,Lefering,R.,Kum,CK和Troidl,H。(1995)。尚未发生的不良事件的可能性:统计提醒。 BMJ 311(7005):619–620。

Basu,美联社,Gaylor,DW和Chen,JJ(1996)。估计样本中零发生的罕见癌症的肿瘤发生概率。法规毒理学和药理学,23(2),139-144。


1
优秀的评论在那里!
AlefSin

对于以“在多个贝叶斯估计量中有多个...”开头的注释,通常不清楚给定注释是属于其上方还是下方的公式。你能说清楚一点吗?
gung-恢复莫妮卡

2

您确实需要联系产品的设计师。这是一个基本的工程问题,而不是观测统计问题。他们将了解每个组件的故障概率,并从中了解整个组装产品的净故障概率。他们可以为您提供产品整个设计寿命内的预期故障数量。

一位土木工程师设计的桥梁的设计寿命为120年。桥的每个组件都有轻微​​的故障机会。每个负载都有被超过的轻微机会。为了使桥梁经济地建造,完全倒塌只会在2400年内发生一次,远远长于桥梁的维护时间。毫不奇怪,这座桥梁在第1年或第2年至第120年都不会失败。那没有倒塌,对您的影响很小。随着时间的流逝,各种失败的机会只能由原始设计者来估计。


0

这类似于我在引入新的制造工艺以消除生产故障时遇到的问题。

新系统没有产生任何故障,因此人们一直在问同样的问题:我们如何预测故障率?在您的情况下,由于您已规定了可以发生故障的时间段,而无需担心该时间段内何时发生故障,因此消除了时间影响。这仅仅是某些事情是否失败的一种情况。有了规定-关于我的答案。

直观地,看来我们至少需要一个故障才能计算出故障率。但是,此假设中存在一个隐式错误。我们将永远不会计算失败率。那是因为我们正在处理一个样本。因此,我们只能估计可能的故障率范围。这样做的方法是找到故障率的分布。在这种情况下执行工作的分布是Beta分布,其中参数为:α = n + 1和β = N - n + 1

注意:N是样本量,n是失败次数(在您的情况下为0)

对于您的方案,故障率的分布如下所示。 在此处输入图片说明

然后,您可以将该分布输入相应的二项式概率公式中,以获得一个单元失效概率的分布(可以通过分析或使用蒙特卡洛完成)。我怀疑这个数字会很低。

请注意,无论您的拳套中有多少次失败,此过程均适用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.