我的问题:即使是相对较大的数据集,我也应该进行简历吗?
我有一个相对较大的数据集,我将对数据集应用机器学习算法。
由于我的电脑运行不快,因此CV(和网格搜索)有时会花费很长时间。特别是,由于许多调整参数,SVM永远都不会停止。因此,如果我进行简历,那么我需要选择一个相对较小的数据。
另一方面,验证集也应该很大,因此我认为使用与训练集大小相同(或更大)的验证集是个好主意。(也就是说,我使用大型验证集代替CV进行参数调整。)
所以我现在至少有两个选择。
- 对小数据集进行简历。
- 使用相对较大的训练集和验证集而不使用简历。
- 其他想法。
最好的主意是什么?无论是理论上还是实践上的意见都值得欢迎。