首先,我想描述一些数据挖掘书籍用来解释如何处理不平衡数据集的常见布局。通常,主要部分名为不平衡数据集,它们涵盖了以下两个子部分:成本敏感分类和抽样技术。
似乎面对一个罕见的类问题,您可以执行成本敏感的分类和抽样。相反,我认为,如果稀有类别也是分类的目标,并且对该类别的记录进行错误分类的代价高昂,则应该应用成本敏感的技术。
另一方面,如果分类的目标总体上具有良好的准确性,而不关注特定类别,则采样技术(例如过采样和欠采样)将很有用。
这种信念来自MetaCost的基本原理,MetaCost是使分类器对成本敏感的一种通用方法:如果一个人希望使分类器对成本敏感,以便惩罚稀有类的分类错误,则他应该对另一类进行过采样。粗略地讲,分类器尝试适应其他类别,并且变为稀有类别所特有的。
这与对稀有类进行过度采样相反,这是解决此问题的通常建议方法。稀有类别的过采样或其他类别的过采样有助于提高整体准确性。
拜托,如果您确认我的想法,那将是很棒的。
如此说来,不平衡数据集面临的常见问题是:
我是否应该尝试获取与其他稀有记录一样多的稀有记录?
我的答案是,如果您正在寻找准确性:好的。您可以执行此操作,以查找更多罕见的类示例,或者删除其他类的某些记录。
如果您使用成本敏感技术专注于稀有类,我会回答:您只能找到更多稀有类示例,但不应删除其他类的记录。在后一种情况下,您将无法让分类器适应其他类别,并且罕见的类别错误分类错误可能会增加。
你会怎么回答?