样本外数据过拟合是否具有100%的模型准确性?


11

我刚刚在认知类.ai上完成了R课程的机器学习,并开始尝试使用随机森林。

我已经通过使用R中的“ randomForest”库制作了一个模型。该模型分为好和坏两个类。

我知道,当模型过拟合时,其自身训练集中的数据表现良好,而样本外数据则表现不佳。

为了训练和测试我的模型,我将完整的数据集混洗并将其分成70%用于训练和30%用于测试。

我的问题是:我对测试集所做的预测获得了100%的准确性。这不好吗?看起来真是太好了。

目的是根据波形相互识别四个波形。数据集的特征是对具有目标波形的波形进行动态时间规整分析的成本结果。


欢迎光临本站!您是否尝试过预测一些噪声数据?
Toros91 '18

每次改组,训练和测试时,准确性都是100%?
Alex

@Alex不太准确,但仍然很高,如98,55%
Milan van Dijck

1
@Alex 11.35%“好”和88.65%“不好”
Milan van Dijck '18年

1
那很不平衡。尝试使用重采样(重复采样)使训练集中的平衡达到OK级(例如,使其达到30%),并在测试/验证集中保持11/89的比率。你得到了什么?
亚历克斯(Alex)

Answers:


29

诸如准确性之类的高验证评分通常意味着您并不过分,但是这应该引起谨慎,并可能表示出了点问题。这也可能意味着问题不是太困难,并且您的模型确实运行良好。可能出错的两件事:

  • 您没有正确分割数据,并且验证数据也出现在训练数据中,这意味着它确实表明过拟合,因为您不再测量一般性
  • 您使用某些特征工程来创建其他特征,并且可能引入了一些目标泄漏,其中行使用的是当前目标的信息,而不仅仅是来自训练集中其他信息的信息。

11
100%的精度始终会尖叫“目标泄漏”。
保罗,

1

调查以了解您最能预测的功能。有时,您不小心将目标(或等同于目标的东西)包括在功能中。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.