故事:
我奶奶走路,但不爬。奶奶也有 一位奶奶以攀登乞力马扎罗山而闻名。
那休眠的火山很大。它比其底部高16,000英尺。(不要恨我的帝国单位。)有时它的顶部也有冰川。
如果您在没有冰川的一年中攀登并到达山顶,那么它是否与有冰川的山顶一样?海拔不同。您必须走的路是不同的。如果冰川厚度较大,该怎么办?这是否更成就了?每年约有35,000人尝试攀登,但只有约16,000人成功攀登。
应用:
因此,我将向奶奶解释权重的控制(又称最小化模型复杂性),如下所示:
奶奶,无论您是否知道,您的大脑都是一个了不起的思想家。如果我问你,在认为自己达到顶峰的16000人中有多少人确实做到了,那么你会说“所有人”。
如果我将传感器安装在所有30,000名登山者的鞋子中,并测量海拔高度,那么其中一些人的身高不会和其他人一样高,并且可能没有资格。当我这样做时,我将使用一个常数模型-我是说,如果高度不等于测得的最大高度的某个百分位,那么它就不是顶部。有些人跳到顶部。有些人越界并坐下。
我可以将纬度和经度添加到传感器中,并拟合一些高阶方程,也许我可以得到一个更好的拟合,并且可以有更多的人参加,也许恰好是尝试此活动的总人数的45%。
因此,假设明年是“大冰川”年或“无冰川”年,因为某些火山确实改变了地球的反照率。如果我从今年开始采用复杂而严谨的模型,并将其应用于明年攀登的人们,那么该模型将产生奇怪的结果。也许每个人都会“通过”,甚至过高而无法通过。也许没有人会通过,它会认为没有人真正完成攀登。尤其是当模型很复杂时,它往往不能很好地概括。它可能完全符合今年的“培训”数据,但是当出现新数据时,它的表现就会很差。
讨论:
当您限制模型的复杂性时,通常可以得到更好的概括而不会过度拟合。使用更简单的模型,可以更好地适应现实世界的变化,在其他所有条件相同的情况下,往往会得出更好的结果。
现在您有了一个固定的网络拓扑,因此您说的是“我的参数计数是固定的”-我的模型复杂度无法改变。废话。测量权重中的熵。当熵较高时,意味着某些系数比其他系数携带的“信息量”大得多。如果您的熵值很低,则意味着系数通常具有相似的“信息性”水平。信息量不一定是一件好事。在民主国家,你希望所有人平等,而像乔治·奥威尔这样的人“比其他人更平等”是衡量制度失败的标准。如果您没有充分的理由,则希望权重彼此非常相似。
就个人而言:我更喜欢“信息标准”之类的东西,而不是使用伏都教或启发式,因为它们使我获得可靠和一致的结果。 AIC,AICc和BIC是一些常见且有用的起点。重复分析以确定解决方案的稳定性或信息标准范围的结果是一种常见的方法。人们可能会考虑在权重的熵上设置一个上限。