使用logistic回归,SVM,决策树,装袋和许多其他类似问题时,我们已经对不平衡数据提出了多个问题,这使它成为一个非常受欢迎的话题!不幸的是,每个问题似乎都是特定于算法的,我没有找到任何处理不平衡数据的通用准则。
引用Marc Claesen的答案之一,处理不平衡数据
(...)在很大程度上取决于学习方法。大多数通用方法都有一种(或几种)方法来解决此问题。
但是,到底什么时候我们应该担心数据不平衡?哪些算法最受它影响,哪些能够处理?我们需要哪种算法来平衡数据?我知道在像这样的问答网站上讨论每种算法都是不可能的,我宁愿寻找有关何时可能出现问题的一般准则。