Questions tagged «hyperparameter»

并非严格用于统计模型(或数据生成过程)的参数,而是用于统计方法的参数。它可以是以下参数的参数:先验分布族,平滑,正则化方法的损失或优化算法。

1
高斯过程回归中的超参数调整
我正在尝试调整已实现的高斯过程回归算法的超参数。我只是想最大化由公式 ,其中K是与元素K_ {ij} = k(x_i,x_j)= b ^ {-1} \ exp(-\ frac {1} {2}(x_i-x_j)^ TM(x_i-x_j))+ a ^ {-1 } \ delta_ {ij}其中M = lI,而a,b和l是超参数。ķķ我Ĵ=ķ(X我,XĴ)=b-1个EXP(-1日志(y | X,θ)= − 12ÿŤķ− 1ÿy − 12日志(det (K))− n2日志(2 π)日志⁡(ÿ|X,θ)=-1个2ÿŤķÿ-1个ÿ-1个2日志⁡(t(ķ))-ñ2日志⁡(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)ķķK中号=升我一个,b升ķ我Ĵ= k (x一世,XĴ)= b− 1经验值(− 12(x一世− xĴ)Ť中号(x一世− xĴ))+ 一个− 1δ我Ĵķ一世Ĵ=ķ(X一世,XĴ)=b-1个经验值⁡(-1个2(X一世-XĴ)Ť中号(X一世-XĴ))+一种-1个δ一世ĴK_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}中号= 升余中号=升一世M=lI一,b一种,ba,b升升l 对数边际似然率wrt参数的偏导数由以下日志(y | X,θ)dθ= 12吨ř 一个Ç ë( …

1
为随机梯度下降(SGD)选择合适的小批量大小
有没有文献研究随机梯度下降时小批量的选择?以我的经验,这似乎是一个经验选择,通常是通过交叉验证或使用不同的经验法则发现的。 随着验证错误的减少,逐渐增加小批量的大小是否是一个好主意?这将对泛化错误产生什么影响?我是否会使用极小的微型批处理程序进行更好的情况更新数十万次?在数量极少与批量之间保持平衡的状态下,我会更好吗? 我是否应该根据数据集的大小或数据集中预期的要素数量来缩放微型批处理的大小? 我显然对实现小批量学习方案有很多疑问。不幸的是,我阅读的大多数论文并没有真正说明他们如何选择此超参数。我从Yann LeCun等作家那里取得了一些成功,尤其是从Tricks of the Trade的论文收集中获得了成功。但是,我仍然没有看到这些问题得到充分解决。是否有人对论文有任何建议,或者关于在尝试学习功能时可以用来确定良好的小批量大小的标准的建议?

1
分层Gamma-Poisson模型的超先验密度
在数据的层次模型中,其中 在实践中选择值似乎很典型(,以使伽玛分布的均值和方差与数据的均值和方差大致匹配(例如Clayton和Kaldor,1987年“疾病测绘的年龄标准化相对风险的经验贝叶斯估计”,Biometrics)。显然,这只是一个临时解决方案,因为它会夸大研究人员对参数的信心yyyy∼Poisson(λ)y∼Poisson(λ)y \sim \textrm{Poisson}(\lambda) λ∼Gamma(α,β)λ∼Gamma(α,β)\lambda \sim \textrm{Gamma}(\alpha, \beta)α,β)α,β)\alpha, \beta)yyy(α,β)(α,β)(\alpha, \beta)即使基础数据生成过程保持不变,已实现数据的微小波动也可能对伽玛密度产生重大影响。 此外,Gelman 在贝叶斯数据分析(第二版)中写道,这种方法是“ 草率的 ”。在书和本文中(从第3232页开始),他建议以类似于大鼠肿瘤示例(从第130页开始)的方式选择一些优先级较高的密度)。p(α,β)p(α,β)p(\alpha, \beta) 尽管很明显,只要只要产生一定的后验密度就可以接受,但我还没有找到研究人员过去用于此问题的任何超高密度示例。如果有人可以指出我使用超优先密度来估计泊松-伽马模型的书籍或文章,我将不胜感激。理想情况下,我对感兴趣,它相对平坦,并且会像老鼠肿瘤示例中的数据一样占主导地位,或者对几种替代规格以及与每种规格相关的取舍进行讨论。p(α,β)p(α,β)p(\alpha, \beta)p(α,β)p(α,β)p(\alpha, \beta)

4
为什么我们不只是学习超级参数?
我正在实施一篇颇受欢迎的论文“ 解释和利用对抗性示例 ”,在该论文中,它训练了对抗性目标函数 J''(θ)=αJ(θ)+(1 −α)J'(θ)。 它将α视为超参数。α可以是0.1、0.2、0.3等。 不管这份具体论文如何,我都想知道,为什么我们不只是将α纳入参数并学习最佳的α? 这样做的缺点是什么?是因为过度拟合吗?如果是这样,为什么只学习1个参数会导致过拟合呢?


2
嵌套交叉验证-与通过训练集上的kfold CV选择模型有何不同?
我经常看到人们谈论5x2交叉验证是嵌套交叉验证的特例。 我假设第一个数字(在这里:5)是指内环的折叠数,第二个数字(在这里:2)是指外环的折叠数?那么,这与“传统”模型选择和评估方法有何不同?我所说的“传统” 将数据集拆分为单独的训练(例如80%)和测试集 在训练集上使用k倍交叉验证(例如k = 10)进行超参数调整和模型选择 使用测试集评估所选模型的泛化性能 如果k = 2,则测试集和训练集的大小相等,那么5x2是否不完全相同?

1
在线性回归中,为什么正则化也会同时惩罚参数值?
目前正在学习岭回归,对于更复杂的模型(或更复杂的模型的定义)的惩罚我感到有些困惑。 据我了解,模型复杂度不一定与多项式阶数相关。因此:是比更复杂的模型2 + 3 + 4 x2+ 5 x3+ 6 x42+3+4X2+5X3+6X4 2 + 3+ 4x^2 + 5x^3 + 6x^45 x55X5 5x^5 而且我知道正则化的目的是保持模型复杂度低,例如说我们有一个五阶多项式F(x ; w )= w0+ w1个x + w2X2+ w3X3+ w4X4+ w5X5F(X;w)=w0+w1个X+w2X2+w3X3+w4X4+w5X5 f(x; w) = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4 + w_5x^5 参数越多,则0越好。 但是我不明白的是,如果是相同阶数的多项式,为什么较低的参数值会减少较少的损失?那么为什么会: 2 + …

1
如果在调整超参数时评估验证数据的模型性能,为什么有关验证数据的信息会泄漏?
在FrançoisChollet的Python深度学习中,它说: 结果,即使从未对模型进行过直接训练,根据其在验证集上的性能来调整模型的配置也可能很快导致对验证集的过度拟合。 这种现象的核心是信息泄漏的概念。每次根据模型在验证集上的性能来调整模型的超参数时,一些有关验证数据的信息都会泄漏到模型中。如果仅对一个参数执行一次此操作,那么将泄漏很少的信息,并且您的验证集将保持可靠以评估模型。但是,如果您重复多次(运行一个实验,对验证集进行评估并最终修改模型),那么您将把与验证集有关的越来越多的信息泄漏到模型中。 如果在调整超参数时评估验证数据的模型性能,为什么有关验证数据的信息会泄漏?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.