名称中的内容：超参数

19

因此，在正态分布中，我们有两个参数：均值和方差。在《模式识别与机器学习》一书中，突然出现了误差函数的正则化项中的超参数。 $\mu$ $\sigma^2$ $\lambda$

什么是超参数？为什么这样命名？它们在直观上与一般参数有何不同？

— go
source

3

我个人只是认为这是人们过度流行的流行病。超这个，超那个。超球面-这是一个球体d @ manit，仅因维数超过3而停止变得超。指示等级级别或其他内容。无论如何，如果您遇到优化问题，请清楚说明正在优化的参数以及任何约束（如果是多级优化，请说明）。我希望我的评论不要太夸张。

— 马克·L·斯通

2

我总是用“超球面”来表示“维一球面”，因此至少在数学上似乎有些含义。至少在我谈论数学时。我现在冷静。

— Matthew Drury

18

术语超参数非常模糊。我将使用它来引用层次结构中比其他参数更高级别的参数。例如，考虑具有已知方差（在这种情况下为1）的回归模型

y \sim N (X β, I)

$y \sim N(X\beta,I)$

然后是参数的先验，例如

β \sim N (0, λ I)

$\beta \sim N(0,\lambda I)$

这里确定的分布和确定用于分配。当我只想引用，可以将其称为参数，当我只想引用，可以将其称为超参数。 $\lambda$ $\beta$ $\beta$ $y$ $\beta$ $\lambda$

当参数显示在多个级别上或存在更多的层次级别时，命名将变得更加复杂（并且您不希望使用术语hyperhyperparameters）。最好是当作者使用术语“超参数”或“参数”来确切说明其含义时。

— 贾拉德涅米
source

这是一个很好的解释。我现在正在将其想象为“功能组合式”。要翻译你把什么符号，

通常与平均分布

，但

是反过来，正态分布的某某。谢谢

y

$y$

X β

$X\beta$

b e t a

$beta$

— cgo

10

超参数只是一个完全或部分影响其他参数的参数。它们并不直接解决您面临的优化问题，而是优化可以解决问题的参数（因此，hyper，因为它们不是优化问题的一部分，而是“附加组件”）。就我所见，但我没有参考，这种关系是单向的（超参数不能受其影响的参数的影响，因此也不受hyper的影响）。它们通常以正则化或元优化方案引入。

例如，您的参数可以自由地影响和来调整正则化成本（但是和对没有影响）。因此，是和的超参数。如果您还有一个影响参数，那么它将是的超参数，并且是和的超超参数（但是我从未见过这种命名法，但是如果我看到它，我不会觉得这是错误的）。 $\lambda$ $\mu$ $\sigma$ $\mu$ $\sigma$ $\lambda$ $\lambda$ $\mu$ $\sigma$ $\tau$ $\lambda$ $\lambda$ $\mu$ $\sigma$

我发现超参数概念对于交叉验证非常有用，因为它使您想起参数的层次结构，同时还提醒您，如果您仍在修改（超）参数，则仍在交叉验证而不是泛化，因此您必须谨慎对待您的结论（避免循环思考）。

— 夸张的
source

7

其他的解释有点模糊。这里有一个更具体的解释应该加以澄清。

超参数仅是模型的参数，而不是要建模的物理过程的参数。您可以“人为地”引入它们，以在存在有限数据和/或有限计算时间的情况下使模型“工作” 。如果您具有测量或计算任何东西的无限能力，那么在模型中将不再存在超参数，因为它们不会描述实际系统的任何物理方面。

另一方面，常规参数是描述物理系统的参数，而不仅仅是建模工件。

— 梅尔达德
source

6

它不是精确定义的术语，所以我将继续为您提供另一个似乎与常用用法一致的定义。

超参数是在机器学习算法中估计的，不参与最终预测功能的功能形式的数量。

我以岭回归为例进行说明。在岭回归中，我们解决了以下优化问题：

β^{*} (λ) = {argmin}_{β} ((y - X β)^{t} (y - X β) + λ β^{t} β)

$\beta^*(\lambda) = \text{argmin}_{\beta} \left( (y - X\beta)^t (y - X\beta) + \lambda \beta^t \beta \right)$

β^{*} = {argmin}_{λ} (y^{'} - X^{'} β (λ))^{t} (y^{'} - X^{'} β (λ))

$\beta^* = \text{argmin}_{\lambda} (y' - X'\beta(\lambda))^t (y' - X'\beta(\lambda))$

在第一个问题是训练数据，而在第二个是保持数据集。我在预测功能之上称呼的模型的最终功能形式是 $X, y$ $X', y'$

f (X) = X β^{*}

$f(X) = X \beta^*$

其中不出现。这使成为参数向量，使成为超参数。 $\lambda$ $\beta$ $\lambda$

— 马修·德鲁里
source

3

正如@jaradniemi精确指出的那样，术语“ 超参数”的一种用法来自分层或多级建模，其中您具有一连串的统计模型，一个统计模型建立在其他模型之上/之下，并通常使用条件概率语句来构建。

但是，在其他上下文中，同样的术语也具有不同的含义。例如，我已经看到术语“ 超参数”用于指代随机模型的模拟参数（运行长度，独立复制的数量，每次复制中相互作用的粒子的数量等），这不是多层次的结果造型。

— 马塞洛·文图拉
source

1

FWIW我通常将运行时间，相互作用粒子的数量等称为调整参数。

— jaradniemi '16

我同意。对我来说，这听起来比超参数更合适。但是，对于其他人来说，在其他知识领域，这听起来仍然足够合理。

— 马塞洛·文图拉