哪个分类器对SVM分类更准确?


10

我正在学习SVM分类并遇到问题。我不确定这个难题是否有专门的术语。

假定我们要根据SVM对患者(既有健康人,也有性别)和肝癌(有性别)的样本进行分类。如果我们将健康人样本标记为1类,将癌症人标记为2类,则可以训练二进制SVM并获得分类器1来预测任何新患者。现在,想象另一个场景。假设我们先将所有样本按性别划分,然后再进行SVM分类。对于每种性别,我们仍将健康患者与癌性患者分为2类,并训练二元SVM分别获得女性和男性样本的分类器2和分类器3。问题是是否有新的女性患者,应该使用哪个分类器1或2来获得更准确的预测?这是我争论的两难境地

(1)当样本数量很大时,预测应该更准确。基于此论点,分类器1似乎是一个不错的选择。

(2)但是,如果我们首先将样本分为女性和男性,分类器2似乎是更好的选择,因为新患者(未知检测样本)是女性。

这种困境是否有术语,或者有人知道任何进一步的信息,或者如何解决这样的问题?我什至不确定这是否是一个合法的问题,并且对预先提出的幼稚问题表示抱歉。谢谢


4
通常无法回答。也许,如果我们知道性别对癌症的影响程度以及您拥有的样本数量,使用的损失函数等等,那么使用交叉验证进行实验可能会容易得多。
adrianN 2013年

谢谢。这说得通。我猜应该没有一个普遍的规则。
卡西

这听起来像是有关“我应该如何使用ML解决此问题的方法”的一般ML问题。没有标准答案。重要/已接受/标准,以尝试不同的方法,并查看哪种策略可以得出最准确的预测结果。一般标题类似于“抽象ML框架中的现实世界问题的表示”或大致“建模”之类的内容,并且包含在良好的标准引用中....另请参阅stats.se
vzn 2013年

Answers:


2

您应该看一下自动执行此功能的功能选择算法。没关系,如果您不熟悉ML,并且不了解整个功能选择过程,只需获得正确的直觉,然后您就可以使用库来自动执行该过程。

拥有学习算法的关键思想是使它能够找到模式...您所能做的最大事情就是通过提供大量(非冗余)数据并具有良好的预处理步骤(通常涉及到一些东西)来帮助他。例如特征选择和归一化

友好地讲,在实施学习算法时,请勿尝试仅通过“查看”来修改数据集,除非您有具体的指标证明需要对数据集进行修改(很多情况下),该算法对那些似乎与分类过程几乎没有“关联”的特征施加了很大的偏见。在尝试对数据进行任何修改之前,请始终尝试执行功能选择步骤。


1

机器学习过程中此类步骤的一个一般标题是数据预处理,维基百科说数据预处理包括“清理,规范化,变换,特征提取和选择等”。

机器学习的另一个方面是“创建模型”。这涉及以下决策:例如,将检测到多少个类,ML结构的“大小”或“维度”是什么(例如“ SVM将包含多少个内核”等),大致类似于NN中神经元数量的选择。模型)。不幸的是,有些裁判倾向于跳过或“遮盖”此步骤。但请注意其与统计数据的共同点,并且一些统计书籍将对此进行很好的描述。

在ML类型方法中,通常需要强大的迭代/反馈/进化过程来确定有效的预处理和建模。实验者尝试了各种预处理和建模思想,并朝着更成功的方向发展。一般的经验法则是:“预测越好,正确[并且大概也现实地 ]进行预处理和建模的预测就越多”,但是也要考虑到过拟合已被仔细排除。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.