他在Bishop的PRML书中说,过度拟合是最大似然估计(MLE)的问题,贝叶斯可以避免这种情况。
但是我认为,过度拟合问题更多地与模型选择有关,而不是与用于参数估计的方法有关。也就是说,假设我有一个数据集,它是通过,现在我可以选择不同的模型来拟合数据并找出哪一个是最好的。所考虑的模型是具有不同阶数的多项式,是阶数1,是阶数2,是阶数9。
现在,我尝试以适应数据与各3款,每个模型都有其paramters,表示为的。
使用ML,我将获得模型参数的点估计,并且太简单了,总是会拟合数据,而太复杂了,会拟合数据,只有会很好地拟合数据。
我的问题是
1)模型将使数据过拟合,但我认为这不是ML的问题,而是模型本身的问题。因为将ML用于不会导致过拟合。我对吗?
2)与贝叶斯算法相比,机器学习确实有一些缺点,因为它仅给出模型参数的点估计,并且过于自信。贝叶斯不仅仅依赖于参数的最可能值,而且还依赖于给定观测数据所有可能参数值,对吗?
3)为什么贝叶斯可以避免或减少过度拟合?据我了解,我们可以使用贝叶斯模型进行模型比较,也就是说,给定数据,我们可以找出所考虑的每种模型的边际可能性(或模型证据),然后选择边际可能性最高的模型(对) ?如果是这样,那为什么呢?