Answers:
文本分类问题往往具有很高的维数(许多要素),高维问题很可能是线性可分离的(因为您可以使用线性分类器分离d维空间中的任何d + 1点,无论这些点如何被标记)。因此,无论是岭回归还是具有线性核的SVM,线性分类器都可能做得很好。在这两种情况下,用于SVM的ridge参数或C(如tdc表示+1)都控制了分类器的复杂性,并通过将每个类别的模式以较大的间距分开来帮助避免过度拟合(即决策面从两个集合之间的差距的中间)。但是,要获得良好的性能,必须适当调整脊/正则化参数(由于便宜,我使用了留一法式交叉验证)。
但是,岭回归工作良好的原因是非线性方法过于强大,难以避免过度拟合。可能会有一个非线性分类器比最佳线性模型提供更好的泛化性能,但是使用我们拥有的训练数据的有限样本来估计那些参数太困难了。在实践中,模型越简单,估计参数的问题就越少,因此过拟合的趋势就越少,因此在实践中我们可以获得更好的结果。
另一个问题是特征选择,脊回归通过正则化权重以使其保持较小来避免过度拟合,并且模型选择非常简单,因为您只需要选择单个回归参数的值即可。如果您尝试通过选择最佳特征集来避免过度拟合,那么模型选择将变得困难,因为每个特征都有一定程度的自由度,这使得过度拟合特征选择准则成为可能最终具有一组针对该特定数据样本最佳的功能,但泛化性能较差。因此,不执行特征选择和使用正则化通常可以提供更好的预测性能。
我经常将Bagging(由训练集中的自举样本组成的训练委员会组成模型)与岭回归模型结合使用,这通常会改善性能,并且由于所有模型都是线性的,因此您可以将它们组合成一个线性模型,因此在运行中不会影响性能。
顾名思义,岭回归是一种回归方法,而不是分类方法。大概您正在使用阈值将其变成分类器。无论如何,您只是在学习由超平面定义的线性分类器。之所以起作用,是因为手头的任务在本质上是线性可分离的,即,只需一个简单的超平面即可分离类。“ ridge”参数允许它在不能完全线性分离的情况下或秩不足的问题(在这种情况下,优化会退化)下使用。
在这种情况下,假设其他分类器已正确实现,则没有理由也不能使其表现良好。例如,SVM找到“最佳分离超平面”(即,使类之间的边距或间隙最大的超平面)。C
SVM 的参数是类似于ridge参数的容量控制参数,这会导致一些错误分类(异常值)。假设参数选择过程已经完成,我希望这两种方法在这样的数据集上产生几乎完全相同的结果。