Answers:
如您所知,我们当然不需要因子即可获得线性回归。无论有没有,最小化器都将完全相同。用m归一的典型原因是,我们可以将成本函数视为“泛化误差”的近似值,泛化误差是随机选择的新示例(不在训练集中)的预期平方损失:
假设是根据某些分布进行采样的。那么对于大m,我们期望 1
更确切地说,通过大数法则强者,我们有
注意:以上每个陈述都是针对任何特定的而选择的,而无需查看训练集。对于机器学习,我们希望这些语句持有一段θ基于训练集其良好的性能选择。这些说法仍然可以持有在这种情况下,虽然我们需要在组函数的一些假设{ ^ h θ,而我们需要的东西比大数定律强。
你不具备对。无论是否包含1,损失函数的最小值都相同或抑制它。如果将其包括在内,则可以很好地理解每个数据点的平均误差最小(一半)。换句话说,您是在将错误率(而不是总错误)最小化。
考虑比较两个不同大小的数据集的性能。平方误差的原始和不是直接可比的,因为较大的数据集仅由于其大小而倾向于具有更多的总误差。另一方面,每个数据点的平均误差为。
您能详细说明一下吗?
当然。您的数据集是数据点的集合。一旦你有一个模型^ h的最小二乘误差^ h在单一数据点
对于每个数据点,这当然是不同的。现在,如果我们简单地将误差相加(并乘以您描述的原因乘以一半),就可以得出总误差
但是,如果我们除以求和数,就可以得出每个数据点的平均误差