测试比例和二进制分类器


10

我有一台生产零件的原型机。

在第一次测试中,该机器生产了零件,并且一个二进制分类器告诉我零件有缺陷(,通常且),而零件是好的。d 1 d 1 < Ñ 1 d 1 / Ñ 1 < 0.01 Ñ 110 4 Ñ 1 - d 1N1d1d1<N1d1/N1<0.01N1104N1d1

然后,技术人员对机器进行一些更改,以减少缺陷零件的数量。

在第二次和随后的测试中,修改后的机器生成零件,并且相同的二进制分类器(未触及)告诉我零件有缺陷,无论如何与非常相似。d 2 d 2 / N 2 d 1 / N 1N2d2d2/N2d1/N1

技术人员想知道他的更改是否有效。

假设分类器是完美的(灵敏度为100%,特异性为100%),则可以对比例进行测试(使用R,我只输入prop.test(c(d1,d2),c(N1,N2)))。

但是分类器不是完美的,那么我如何考虑分类器的敏感性和特异性(都是未知的),以便正确地回答技术人员的问题?


您可以确认分类器的准确率吗?
米歇尔

@Michelle我知道没有错误和但我不知道有多少有缺陷的零件被错误分类为好零件。d 2d1d2
亚历山德罗·贾科普森

你好,我们又见面了。您可以分别从N1和N2中随机抽取好零件来估计误报率吗?
米歇尔

1
有了这些信息,您可以使用这种方法比较更改吗?onlinelibrary.wiley.com/doi/10.1002/sim.906/abstract也可在此处参阅ncbi.nlm.nih.gov/pubmed/18224558和此处的其他想法,全文:stat.colostate.edu/~bradb/papers/lrgraphfinal。 pdf
Michelle

2
(+1)这是一个很好的问题!
steffen 2012年

Answers:


4

因此,我是从第一条原则得出的,因此不确定它是正确的。这是我的想法:

编辑:这不太正确。我已经更新了。

  1. 让我们用表示真实正数的实际数量与二进制分类器输出的数量之间的期望差,我们将其称为。您可以通过在具有已知标签的集合上运行分类器来进行测量。从分类器产生的正数中减去实际正数,然后除以得出。d 1 ^ d 1 Ñ ααd1d1^Nα

  2. 因此,缺陷零件的实际比率的点估计值由下式给出: 。即,观察到的缺陷零件数量减去预期的误报数量加上预期的误报数量。d1N1^=d1+αN1N1

  3. 同样,d2N2^=d2+αN2N2

  4. 所以,现在让我们进行道具测试。在标准道具测试中,我们首先计算用作空值的合并比率:。因此,在这里,我们将和的点估计值输入: ^ d 1p=p1N1+p2N2N1+N2 ^d2d1N1^ p=d1+d2+αN1+N2d2N2^p=d1+d2+α(N1+N2)N1+N2

  5. 然后,标准错误常见:p(1p)(1N1+1N2)

  6. 并且测试统计量是相同的:z=d1N1d2N2se

关于解释的一些想法:

  • 该模型可以产生标准误差的虚数值。当时会发生这种情况,当我们期望分类器产生的错误数超过观察到的数时便会出现这种情况。例如,假设即使给定不包含阳性的样本,我们也希望分类器平均产生5个阳性。如果我们观察到4个正值,则好像没有信号:我们的结果与分类器产生的噪声没有区别。我认为,在这种情况下,我们不应该拒绝原假设。p<0

  • 考虑这一点的另一种方法是,如果缺陷零件的数量在分类器的误差范围内,那么我们当然无法分辨出是否存在差异:我们甚至无法分辨出任何零件是否存在缺陷!

在的估计中合并错误:α

  • 我对此进行了更多考虑,并且我认为您可以通过多种方法来实现此目的,但实际上您希望对的分布进行估算。理想情况下,您将重复进行此过程,以便在打算使用此方法的数据集的代表性样本上获得的估计值。如果无法做到这一点,则可以通过从单个数据集中提取样本来引导到单个数据集,尽管除非您的单个数据集能够代表您关注的所有数据集,否则这并不理想。ααα

假设我们要计算置信度为的置信区间。h

  • 使用自举分布,根据经验计算的置信区间。将每个端点插入上述过程,将其用作(非常保守或非常宽松)的点估计,并使用prop检验找到置信区间,以估计比例差异。假设我们获得间隔(和作为的较低和较高值的间隔。然后间隔(包含两个较早的间隔)应该是比例差异的(1-h)* 100%CI ...我认为... ααħh2ααø瓦特ö瓦特- [R )H ^ħħħ- [R αħħö瓦特- [R h2lowl,lowr)(highl,highr)α(highl,lowr)

注意:在上面,我假设进行了1面测试。将h除以2可以说明您正在测试两个独立的假设的事实(在您认为的区间中,而测试统计量则是一个显着的差异)。如果要进行两尾测试,请除以4。α


+1,谢谢。在6中,您写了“静态”,您是说“统计”吗?
亚历山德罗·贾科普森

在第一个要点中,您认为给出了假想的标准误差。怎么办(也可以给出虚构的标准误差)?有可能得到吗?0 < p < 1 0 < p < 1p<00<p<10<p<1
亚历山德罗·贾科普森

在第二个项目符号中,您写了“方差”,这是什么意思?我的理解如下:假设我从第一次测试的好样本中抽取了大小为的样本,发现7个有缺陷的零件,那么如果我假设我将忽略任何变化。另一方面,我可以获得的置信区间(例如R ),然后将其合并到模型中。我对吗?β = 70.01(N1d1)100 βββ=7100ββprop.test(7,100)
亚历山德罗·贾科普森

@uvts_cvs是的,应该是“统计”。我待会儿解决。标准误差的计算中还有一个错字,应该是p *(1-p)。P应该总是<1,除非您的分类器确实很差而d很大。对于您的第三条评论,是的,就是这个想法。我只是不确定如何将该估算值纳入模型。也许这里的其他人知道吗?
约翰·杜塞特

感谢您的接受,但是自从昨晚以来,我已经对它进行了更多的思考(顺便问一个很好的问题!),并对如何将差异纳入其中有一些想法。此外,我意识到这种模型不太正确。需要将乘以模范数,并将乘以模范数。我将进行处理,并在以后进行更新。βαβ
约翰·杜塞特
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.