1
一个简单的逻辑回归模型如何在MNIST上实现92%的分类精度?
即使MNIST数据集中的所有图像都居中,具有相似的比例并且面朝上且没有旋转,但它们的笔迹差异很大,这使我感到困惑,线性模型如何实现如此高的分类精度。 据我所能想象的,鉴于明显的笔迹变化,数字应该在784维空间中线性不可分割,即应该有一点点(尽管不是很复杂)非线性边界将不同的数字分开,类似于引人注目的XØ [RXORXOR示例,其中正类别和负类别无法通过任何线性分类器分开。在我看来,多类逻辑回归如何在具有完全线性特征(无多项式特征)的情况下产生如此高的准确性令我感到困惑。 例如,给定图像中的任何像素,数字222和333不同手写体变化可以使该像素发光或不发光。因此,通过一组学习的权重,每个像素可以使数字看起来像222以及333。只有结合像素值,才可以说出数字是222还是333。对于大多数数字对都是如此。因此,逻辑回归如何盲目地将决策独立于所有像素值(根本不考虑像素间的依赖性),从而能够实现如此高的准确性。 我知道我在某个地方错了,或者只是高估了图像中的变化。但是,如果有人可以帮助我直观地了解数字如何“几乎”线性可分,那将是很棒的。