如何从精确召回曲线中选择一个好的操作点？

11

是否有任何标准方法来确定精确召回曲线上的“最佳”操作点？（即，确定曲线上的点，以便在精度和查全率之间取得良好的平衡）

谢谢

machine-learning precision-recall

— 阿梅里奥·巴斯克斯·雷纳（Amelio Vazquez-Reina）
source

12

“最优”的定义当然取决于您的特定目标，但是这里有一些相对“标准”的方法：

等错误率（EER）点：精度等于召回率的点。在某些人看来，这是一个“自然”的操作要点。
上面的改进和更原则性的版本是指定不同类型错误的成本并优化该成本。说对项目进行错误分类（精度错误）比完全丢失项目（召回错误）高两倍。那么最好的工作点就是（1-召回率）= 2 *（1-精度）。
在某些问题中，人们对准确性或召回率的接受程度自然是最低的。假设您知道，如果超过20％的检索数据不正确，用户将停止使用您的应用程序。然后自然可以将精度设置为80％（或更低），并接受此时的召回率。

— 谢尔顿·库珀
source

2

遵循SheldonCooper的第二和第三个要点：理想的选择是让其他人做出选择，可以采用阈值（第3点）或成本效益权衡（第2点）的形式。也许向他们提供选择的最好方法是使用ROC曲线。

— 共轭先验
source

1

我不确定这是多少“标准”，但是一种方法是选择最接近（1，1）的点-即100％的查全率和100％的精度。那将是两种措施之间的最佳平衡。这是假设您不重视准确性而不是召回率，反之亦然。

— 哈德利是我的英雄
source