为什么ridge回归分类器在文本分类中效果很好?


18

在进行文本分类的实验中,我发现了脊分类器生成的结果,这些结果一直领先于那些最常提及的分类器中的测试,这些分类器适用于文本挖掘任务,例如SVM,NB,kNN等。尽管我没有详细说明除了针对参数的一些简单调整外,还针对此特定文本分类任务优化了每个分类器。

这样的结果也提到了迪克兰有袋动物

并非来自统计背景,在在线阅读了一些材料之后,我仍然无法弄清其主要原因。谁能提供一些有关这种结果的见解?

Answers:


16

文本分类问题往往具有很高的维数(许多要素),高维问题很可能是线性可分离的(因为您可以使用线性分类器分离d维空间中的任何d + 1点,无论这些点如何被标记)。因此,无论是岭回归还是具有线性核的SVM,线性分类器都可能做得很好。在这两种情况下,用于SVM的ridge参数或C(如tdc表示+1)都控制了分类器的复杂性,并通过将每个类别的模式以较大的间距分开来帮助避免过度拟合(即决策面从两个集合之间的差距的中间)。但是,要获得良好的性能,必须适当调整脊/正则化参数(由于便宜,我使用了留一法式交叉验证)。

但是,岭回归工作良好的原因是非线性方法过于强大,难以避免过度拟合。可能会有一个非线性分类器比最佳线性模型提供更好的泛化性能,但是使用我们拥有的训练数据的有限样本来估计那些参数太困难了。在实践中,模型越简单,估计参数的问题就越少,因此过拟合的趋势就越少,因此在实践中我们可以获得更好的结果。

另一个问题是特征选择,脊回归通过正则化权重以使其保持较小来避免过度拟合,并且模型选择非常简单,因为您只需要选择单个回归参数的值即可。如果您尝试通过选择最佳特征集来避免过度拟合,那么模型选择将变得困难,因为每个特征都有一定程度的自由度,这使得过度拟合特征选择准则成为可能最终具有一组针对该特定数据样本最佳的功能,但泛化性能较差。因此,不执行特征选择和使用正则化通常可以提供更好的预测性能。

我经常将Bagging(由训练集中的自举样本组成的训练委员会组成模型)与岭回归模型结合使用,这通常会改善性能,并且由于所有模型都是线性的,因此您可以将它们组合成一个线性模型,因此在运行中不会影响性能。


d1d

通常假定这些点位于“常规位置”,这样(例如)它们就不会位于一条直线上,在这种情况下,在二维空间中,您可以分离任意3个点。如果所有点都位于一条直线上,则实际上它们位于一个嵌入2维空间的1维子空间中。
Dikran有袋动物2011年

Wikipedia上有这样的陈述:“由于该方法对多个预测变量求平均值,因此对于改进线性模型没有用”,尽管我不确定为什么这应该是正确的?
tdc

我也不明白为什么这也是正确的。我怀疑一个袋装线性模型可以由单个线性模型准确表示的问题,但是问题是单个模型的参数估计,而不是模型的形式。我发现装袋确实可以提高泛化能力,但是除非您具有比观察结果更多的功能,否则增益通常很小(这样,模型的估计就不稳定了,数据的微小变化会导致模型的较大变化)。
Dikran有袋动物2011年

也许您应该更新Wikipedia页面!您听起来对此事有见识...
tdc

6

顾名思义,岭回归是一种回归方法,而不是分类方法。大概您正在使用阈值将其变成分类器。无论如何,您只是在学习由超平面定义的线性分类器。之所以起作用,是因为手头的任务在本质上是线性可分离的,即,只需一个简单的超平面即可分离类。“ ridge”参数允许它在不能完全线性分离的情况下或秩不足的问题(在这种情况下,优化会退化)下使用。

在这种情况下,假设其他分类器已正确实现,则没有理由也不能使其表现良好。例如,SVM找到“最佳分离超平面”(即,使类之间的边距或间隙最大的超平面)。CSVM 的参数是类似于ridge参数的容量控制参数,这会导致一些错误分类(异常值)。假设参数选择过程已经完成,我希望这两种方法在这样的数据集上产生几乎完全相同的结果。


2
我记得阅读它可以证明LS-SVM二进制分类等效于-1,1标签上的Ridge回归,它们的表达方式是相同的。
Firebug

认为您可能
对这
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.