有不确定数据的监督学习?


11

是否存在将监督学习模型应用于不确定数据集的现有方法?例如,假设我们有一个类别为A和B的数据集:

+----------+----------+-------+-----------+
| FeatureA | FeatureB | Label | Certainty |
+----------+----------+-------+-----------+
|        2 |        3 | A     | 50%       |
|        3 |        1 | B     | 80%       |
|        1 |        1 | A     | 100%      |
+----------+----------+-------+-----------+

我们如何在此基础上训练机器学习模型?谢谢。

Answers:


11

作为您归因于数据的数字质量,我认为这种“确定性”可以肯定地用作权重。较高的“确定性”分数会增加数据在决策功能上的权重,这很有意义。

许多监督学习算法都支持权重,因此您只需要找到要使用的权重的加权版本即可。


2
(+1)并且由于权重本质上倾向于充当点的“副本”,因此任何算法都可能会以这种方式(例如在OP示例中)传递[5,8,10]个副本这3分,反映了[50,80,100]%的确定性。(这绝对不是真正需要的,就好像原则上可以做到的那样,应该有相应的加权算法版本。)
GeoMatt22

5

可以使用连续性的确定性值代替标签A或B,例如,对应于您确定为某些内容,对应于您确定为某些内容,对应于您确定的以及对应于您确定的某些内容“重40%肯定是。然后,建立一个模型,而不是根据您认为类或类的评分,而是根据您认为类或类的评分(在该评分基于>或<1/2来确定阈值)的情况下输出介于和之间的评分。这会将您的分类问题转变为回归问题(您必须将其作为阈值才能返回到分类器)。A 0 B 0.6 A A B 0 11A0B0.6AAB01

例如,您可以将线性模型拟合为为(其中是上述确定性)。然后,当要测试的一些数据,将其插入模型,并输出标签如果和否则。 β0+β Ť 1 Xp|Xβ0+β Ť 1 X>0logp(A|x)p(B|x)=logp(A|x)1P(A|x)β0+β1Txp(A|x)Aβ0+β1Tx>0B


因此,如果您遇到多类分类问题,可以将目标设置为长度等于类数的向量吗?
hyperdo

类别-1的数目(假设确定性总计为100%);该示例类似于逻辑回归。许多分类器会产生分数(例如,某些模型下p(class | data)的估计值)。所有这些答案提出的是,与其直接预测类别,不如将确定性视为得分,并对其进行预测。然后,对分数进行处理。
蝙蝠侠
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.