因此,在正态分布中,我们有两个参数:均值和方差。在《模式识别与机器学习》一书中,突然出现了误差函数的正则化项中的超参数。
什么是超参数?为什么这样命名?它们在直观上与一般参数有何不同?
因此,在正态分布中,我们有两个参数:均值和方差。在《模式识别与机器学习》一书中,突然出现了误差函数的正则化项中的超参数。
什么是超参数?为什么这样命名?它们在直观上与一般参数有何不同?
Answers:
术语超参数非常模糊。我将使用它来引用层次结构中比其他参数更高级别的参数。例如,考虑具有已知方差(在这种情况下为1)的回归模型
然后是参数的先验,例如
这里确定的分布β和β确定用于分配ÿ。当我只想引用β时,可以将其称为参数,当我只想引用λ时,可以将其称为超参数。
当参数显示在多个级别上或存在更多的层次级别时,命名将变得更加复杂(并且您不希望使用术语hyperhyperparameters)。最好是当作者使用术语“超参数”或“参数”来确切说明其含义时。
超参数只是一个完全或部分影响其他参数的参数。它们并不直接解决您面临的优化问题,而是优化可以解决问题的参数(因此,hyper,因为它们不是优化问题的一部分,而是“附加组件”)。就我所见,但我没有参考,这种关系是单向的(超参数不能受其影响的参数的影响,因此也不受hyper的影响)。它们通常以正则化或元优化方案引入。
例如,您的参数可以自由地影响μ和σ来调整正则化成本(但是μ和σ对λ没有影响)。因此,λ是μ和σ的超参数。如果您还有一个影响λ的τ参数,那么它将是λ的超参数,并且是μ和σ的超超参数(但是我从未见过这种命名法,但是如果我看到它,我不会觉得这是错误的) 。
我发现超参数概念对于交叉验证非常有用,因为它使您想起参数的层次结构,同时还提醒您,如果您仍在修改(超)参数,则仍在交叉验证而不是泛化,因此您必须谨慎对待您的结论(避免循环思考)。
正如@jaradniemi精确指出的那样,术语“ 超参数”的一种用法来自分层或多级建模,其中您具有一连串的统计模型,一个统计模型建立在其他模型之上/之下,并通常使用条件概率语句来构建。
但是,在其他上下文中,同样的术语也具有不同的含义。例如,我已经看到术语“ 超参数”用于指代随机模型的模拟参数(运行长度,独立复制的数量,每次复制中相互作用的粒子的数量等),这不是多层次的结果造型。