我目前正在自学如何进行分类,特别是正在研究三种方法:支持向量机,神经网络和逻辑回归。我想了解的是为什么逻辑回归会比其他两个更好。
根据我对逻辑回归的理解,这个想法是使逻辑函数适合整个数据。因此,如果我的数据是二进制的,则我所有带有标签0的数据都应映射到值0(或接近它),而我所有带有值1的数据都应映射到值1(或接近它)。现在,由于逻辑函数是连续且平滑的,因此执行此回归需要我所有的数据拟合曲线。决策边界附近的数据点没有受到更大的重视,所有数据点对损失的贡献程度不同。
但是,对于支持向量机和神经网络,只有决策边界附近的那些数据点才重要。只要数据点保留在决策边界的同一侧,它将造成相同的损失。
因此,为什么逻辑回归会比支持向量机或神经网络更胜一筹,原因是逻辑回归会“浪费资源”来使曲线拟合许多不重要的(易于分类的)数据,而不是只关注决策周围的困难数据边界?