什么是地面真理


29

机器学习的背景下,我看到了“ 地面真理 ”一词经常使用。我进行了很多搜索,并在Wikipedia中找到以下定义:

在机器学习中,术语“地面真理”是指有监督学习技术的训练集分类的准确性。在统计模型中使用它来证明或否定研究假设。术语“地面实况调查”是指为此测试收集适当的客观(可证明)数据的过程。与黄金标准比较。

贝叶斯垃圾邮件过滤是监督学习的常见示例。在该系统中,人工学习了垃圾邮件和非垃圾邮件之间的区别。这取决于用于训练算法的消息的地面真相-地面真相中的错误将与垃圾邮件/非垃圾邮件裁决中的错误相关。

关键是我真的无法理解它的意思。是,标签用于每个数据对象目标函数赋予一个标签给每个数据对象,或者也许别的东西吗?

Answers:


25

基本事实是您针对训练和测试示例中的目标变量进行的测量。

几乎所有时间,您都可以放心地将其与标签相同。

在某些情况下,它与标签并不完全相同。例如,如果您扩充数据集,则地面真实情况(您的实际测量值)与扩充后的示例与您分配的标签之间的关系之间存在细微的差异。但是,这种区别通常不是问题。

基本事实可能是错误的。这是一个度量,其中可能有错误。在某些机器学习场景中,它也可能是一种主观测量,难以定义一个潜在的客观事实,例如您希望自动化的专家意见或分析。您训练的任何机器学习模型都将受到用于训练和测试它的地面真理的质量的限制,这是Wikipedia引言中的解释的一部分。这也是为什么有关ML的已发表文章应包含有关如何收集数据的完整说明的原因。


在训练过程中,是否可以根据从特征中获得的信息(例如,从得分图获得)来修改或创建gt(例如,分割问题)?
亚历克斯

@Alex:通常不会。在某些情况下,一个修改后的输出或半自动化过程会为流水线中的下一个算法产生基本事实。但是,如果您指的是通过某种规则修改其目标的算法,则通常不将其视为新的地面真理-地面真理将是为训练提供的原始细分。相反,任何聪明的自动优化都将成为模型的一部分。
尼尔·斯莱特

与人类互动的改进或引用原始非图像数据(例如,使用3D模型生成某些源图像,因此可以创建更好的“真实”分割)可能是新的地面真理。尽管您可能想将用于构建第一个模型的第1代基础事实与经过迭代并用于构建第二个模型的第2代基础事实分开,即使第二个模型只是相同的体系结构接受反馈方面的培训。
尼尔·斯莱特

“接受反馈培训”-接近,但不完全相同。如果您已经看过FCN模型,则最后一层是得分图,它与gt图一起插入了log softmax损失函数中。我要做的是获取分数图,从中提取一些数据(例如argmax二进制blob的数量),并(以某种方式)在将其插入损失函数之前修改gt蒙版。这有多合法?
亚历克斯

@Alex:那是您模型的一部分,而不是新的事实。除非您任意决定新模型的目标是学习组合功能。在这种情况下,这是新模型的基本原理-但是,您绝对应该注意该数据的复杂来源,因为它是通过自动方式从原始测量中修改而来的。
尼尔·斯莱特

2

基本事实:这就是您希望模型进行预测的事实。

它可能会有一些噪音,但是您希望您的模型学习导致这一基本事实的数据中的潜在模式。实际上,您的模型将永远无法预测地面实况,因为地面实况也会有一些噪音,而且没有模型能够提供100%的准确性,但是您希望模型尽可能地接近。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.