Questions tagged «hyperparameter»

并非严格用于统计模型(或数据生成过程)的参数,而是用于统计方法的参数。它可以是以下参数的参数:先验分布族,平滑,正则化方法的损失或优化算法。

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
实用的超参数优化:随机与网格搜索
我目前正在研究Bengio和Bergsta的用于超参数优化 的随机搜索[1],作者声称随机搜索比网格搜索更有效地实现近似相等的性能。 我的问题是:这里的人是否同意这种说法?在我的工作中,我之所以一直使用网格搜索,主要是因为缺少可轻松执行随机搜索的工具。 人们使用网格搜索与随机搜索的体验如何?



3
亚当优化器被认为对其超参数值具有鲁棒性的原因是什么?
我正在阅读有关深度学习的Adam优化器的内容,并在Bengio,Goodfellow和Courville撰写的新书《深度学习》中遇到了以下句子: 尽管有时需要将学习速率从建议的默认值更改,但通常认为Adam对超级参数的选择相当可靠。 如果确实如此,那么这很重要,因为超参数搜索对于深度学习系统的统计性能非常重要(至少以我的经验)。因此,我的问题是,为什么亚当·鲁伯特(Adam Robust)拥有如此重要的参数?特别是和β 2?β1β1\beta_1β2β2\beta_2 我已经阅读了Adam的论文,但没有提供任何解释说明为什么它可以与这些参数一起使用,或者其坚固性为何。他们有其他理由吗? 另外,因为我读的文件,似乎中超参数的数量,他们试图在那里非常小,只2和β 2只有3个。这怎么可能彻底的实证研究,如果它仅适用于2×3超参数?β1β1\beta_1β2β2\beta_2

2
LDA超参数的自然解释
有人可以解释LDA超参数的自然解释是什么吗?ALPHA和BETA是分别用于(按文档)主题和(按主题)单词分布的Dirichlet分布的参数。但是,有人可以解释一下选择这些超参数中的较大值与较小值的含义吗?这是否意味着对文档中的主题稀疏性和词语的主题互斥性有任何先入之见? 这个问题与潜在的Dirichlet分配有关,但是下面紧随其后的BGReene的评论涉及线性判别分析,该分析也令人困惑,也简称为LDA。

4
在交叉验证之外调整超参数有多糟糕?
我知道在交叉验证之外执行超参数调整会导致对外部有效性的偏高估计,因为您用来衡量性能的数据集与用于调整功能的数据集相同。 我想知道的是,这个问题有多严重。我可以理解,这对于选择功能真的很不利,因为这使您可以调整大量的参数。但是,如果您使用的是LASSO之类的东西(它只有一个参数,即正则化强度),或者是一个没有特征选择的随机森林(它可以具有一些参数,却没有添加/删除噪声特征那么引人注目)? 在这些情况下,您对培训误差的估计有多乐观? 我非常感谢您提供任何有关此方面的信息-案例研究,论文,文献数据等。谢谢! 编辑:为澄清起见,我不是在谈论在训练数据上评估模型性能(即根本不使用交叉验证)。“交叉验证之外的超参数调整”是指仅使用交叉验证来估计每个模型的性能,而不包括外部第二交叉验证循环来校正超参数调整过程中的过拟合(与在训练过程中过度安装)。请参见此处的答案。

5
名称中的内容:超参数
因此,在正态分布中,我们有两个参数:均值和方差。在《模式识别与机器学习》一书中,突然出现了误差函数的正则化项中的超参数。μμ\muσ2σ2\sigma^2λλ\lambda 什么是超参数?为什么这样命名?它们在直观上与一般参数有何不同?

6
对数据集样本进行超参数调整不是一个好主意吗?
我有一个包含140000个示例和30个功能的数据集,我正在为其训练几个分类器以进行二进制分类(SVM,逻辑回归,随机森林等) 在许多情况下,使用网格搜索或随机搜索对整个数据集进行超参数调整在时间上过于昂贵。 我开始使用以下技术 子样本我的数据集 使用获得的分数来调整超参数 使用获得的参数来使用整个数据集训练模型 为了评估在第二步骤I使用每组参数sklearn的GridSearchCV与CV = 10。为了评估在第三步中创建的最终模型,我使用sklearn的cross_val_predict。从这种意义上来说,我评估模型时会遗漏10%的数据,然后对其余模型进行训练,然后对10%的预测准确性进行迭代10次,然后取平均分数。 让我担心的是,我在整个数据集上进行训练所获得的预测准确性确实接近我为最佳参数集调整参数时所获得的评估(每组经过测试的参数均输出通过平均10-交叉验证结果)。 在大多数情况下,cross_val_predict使用所有训练示例(整个数据集)测得的准确性略高于返回的最佳参数评估值。 为了说明这一点,这里是对一组参数的评估(在比我上面描述的更小的数据集上,但是效果是相同的) Best parameters set found on development set: {'kernel': 'rbf', 'C': 9, 'gamma': 0.1} Scores for all sets of parameters 0.851 (+/-0.006) for {'kernel': 'rbf', 'C': 3, 'gamma': 0.5} 0.852 (+/-0.006) for {'kernel': 'rbf', 'C': 3, 'gamma': 0.1} 0.829 …

2
对于超参数调整,粒子群优化优于贝叶斯优化的优势?
关于贝叶斯优化(1)的大量当代研究用于调整ML超参数。此处的驱动动机是,需要最少数量的数据点来做出明智的选择,以选择值得尝试的点(目标函数调用价格昂贵,因此减少选点会更好),因为训练模型会占用大量时间-适度我正在处理的大型SVM问题可能需要几分钟到几个小时才能完成。 另一方面,Optunity是一个粒子群实现,可以解决同一任务。我对PSO并不十分熟悉,但是在要求更多的试验点和目标函数评估来评估超参数表面的意义上,PSO的效率似乎必须较低。 我是否错过了使PSO在机器学习环境中优于BO的关键细节?还是在针对超参数调整任务的两个始终固有的上下文之间进行选择? (1)Shahriari等人,“将人类带出循环:贝叶斯优化理论综述”。

3
如何在嵌套交叉验证中获取超级参数?
我已经阅读了以下有关嵌套交叉验证的文章,但仍然不确定100%如何使用嵌套交叉验证进行模型选择: 嵌套交叉验证,用于模型选择 模型选择和交叉验证:正确的方法 为了解释我的困惑,让我尝试逐步使用嵌套交叉验证方法进行模型选择。 使用K折创建外部CV循环。这将用于估计“赢得”每个内部CV循环的超参数的性能。 使用GridSearchCV创建一个内部CV循环,在每个内部循环中,GSCV都会遍历参数空间的所有可能组合,并提供最佳的参数集。 GSCV在内部循环中找到最佳参数后,将使用外部循环中的测试集对其进行测试,以获得性能评估。 然后,外循环更新为测试集的下一个折叠,其余的更新为训练集,并重复1-3次。总共可能的“获胜”参数是在外循环中指定的折数。因此,如果外部循环是5倍,那么您将对具有5组不同的超参数的算法进行性能评估,而不是一组特定的超参数的性能。 SKLearn的示例页面上说明了这种方法:http ://scikit-learn.org/stable/auto_examples/model_selection/plot_nested_cross_validation_iris.html 问题:4 . 之后,您如何确定哪些超级参数效果最佳?我知道您想使用最后的COMPLETE数据来训练算法(例如逻辑回归,随机森林等)。但是,如何确定哪些超级参数在嵌套交叉验证中效果最好?我的理解是,对于每个内部循环,一组不同的超参数将获胜。对于外循环,您正在评估GridSearchCV的性能,但没有任何一组特定的超参数。因此,在最终的模型创建中,您如何知道要使用哪些超参数?那是我从其他方面难以理解的缺失逻辑。 预先感谢您提供任何提示,尤其是如果@Dikran Marsupial和@cbeleites可以发出提示音! 编辑:如果可以的话,请在回答中使用“算法”和“超级参数”之类的术语。我认为让我感到困惑的一个原因是人们使用术语“模型”或“模型选择”。无论他们是在谈论选择使用哪种算法还是使用哪些超级参数,我都感到困惑。 编辑2:我创建了一个笔记本,其中显示了两种进行嵌套交叉验证的方法。第一种方法是SKLearn示例中显示的方法,另一种较长的方法是我编写的方法。SKLearn中显示的方法没有公开“获胜”的超参数,但我的较长方法却没有。但是问题仍然是一样的。完成嵌套交叉验证后,即使暴露了超参数,我现在该怎么办?从笔记本末尾的超参数可以看出,它们之间的差异很大。

1
嵌套交叉验证后如何建立最终模型并调整概率阈值?
首先,为发布一个已经在这里,这里,这里,这里,这里详细讨论过的问题的道歉,并用于重新加热旧主题。我知道@DikranMarsupial已经在帖子和期刊论文中详细介绍了这个主题,但是我仍然感到困惑,从这里的类似帖子数量来看,这仍然是其他人难以理解的事情。我还应该指出,我在这个话题上的矛盾加剧了我的困惑。您还应该知道我本来是物理学家,而不是统计学家,所以我在这方面的专业知识有限。我正在写一篇期刊论文,其中我想使用嵌套的CV来评估最终模型所期望的性能。在我的领域,这是第一个。(我们几乎从不使用任何是我领域中强大的简历的一种形式,但要用神经网络和增强型决策树的研究成果来愉快地抽出论文!)因此,有一个非常透彻和清晰的理解非常重要,这样我就不会搞砸和传播对我的社区来说是一个错误的过程,可能需要多年才能学会!谢谢!关于这个问题... 嵌套交叉验证后如何构建最终模型? 我正在训练一个具有L1和L2正则化的简单glmnet模型。快速,简单和可解释。我执行特征中心,缩放和Box-Cox转换,以使特征分布均值中心,标准化并且有点像高斯型。我在交叉验证中执行此步骤,以防止信息泄漏。纯粹是因为我的硬件速度非常慢,而且我无法使用更多的CPU资源,所以在特征预处理之后,我还会在CV中执行基于过滤器的快速特征选择。我正在使用随机网格搜索来选择alpha和lambda超参数。我知道我不应该通过CV循环获得此估算值。我知道内部CV回路用于模型选择(在这种情况下,是最佳超参数),而外部回路则用于模型评估,即内部CV和外部CV具有两个不同的用途,这些用途常常被错误地混为一谈。(到目前为止,我还好吗?) 现在,我发布的链接建议“考虑交叉验证的方法是估计使用构建模型的方法获得的性能,而不是估计模型的性能”。鉴于此,我应该如何解释嵌套CV过程的结果? 我读过的建议似乎表明以下问题---如果这是错误的,请纠正我:内部CV是允许我选择glmnet模型的最佳alpha和lambda超参数的机制的一部分。如果我完全按照内部CV中所使用的过程(包括超参数调整)并使用整个数据集构建最终模型,则外部CV会告诉我可以从最终模型中获得的估计值。即,超参数调整是“用于构建模型的方法”的一部分。这是正确的吗?因为这使我感到困惑。在其他地方,我已经看到了构建要部署的最终模型的过程涉及使用固定值对整个数据集进行训练使用CV选择的超参数。在此,“用于建立模型的方法”不包括调整。那是什么呢?在某个时候,将选择最佳超参数并将其固定以构建最终模型!哪里?怎么样?如果我的内循环是CV的5倍,而我的外循环是CV的5倍,并且我在内部CV中选择了100个测试点作为随机网格搜索的一部分,那么我实际训练了几次glmnet模型?(100 * 5 * 5)+ 1作为最终版本,还是我不知道还有更多步骤? 基本上,我需要对如何从嵌套CV解释性能估计以及如何构建最终模型进行非常清晰的描述。 我还想知道选择概率阈值的适当程序,以将最终的glmnet模型的概率分数转换为(二进制)类标签---需要另一个CV循环吗?

3
超参数调整:随机搜索与贝叶斯优化
因此,我们知道随机搜索比网格搜索更好,但是最近的方法是贝叶斯优化(使用高斯过程)。我查找了两者之间的比较,却一无所获。我知道,在斯坦福大学的cs231n中,他们只提及随机搜索,但是他们可能想使事情保持简单。 我的问题是:哪种方法通常更好,并且如果答案是“有时是随机搜索,有时是贝叶斯方法”,那么我何时应该优先使用一种方法呢?

3
如何在机器学习管道中对特征选择和超参数优化进行排序?
我的目标是对传感器信号进行分类。到目前为止,我的解决方案的概念是:i)从原始信号中获取工程特征ii)使用ReliefF和聚类方法选择相关特征iii)应用NN,Random Forest和SVM 但是我陷入了困境。在ii)和iii)中,存在用于ReliefF的k-最近的Neigbours或窗口长度的超参数,对其进行评估的传感器信号,或NN的每一层中的隐藏单位数 我在这里看到3个问题:1)调整特征选择参数会影响分类器的性能2)优化分类器的超参数会影响特征的选择。3)评估配置的每种可能组合都是很困难的。 所以我的问题是:a)我可以做一个简化的假设,可以将st调整特征选择参数与调整分类器参数解耦吗?b)还有其他可能的解决方案吗?

2
决策阈值是逻辑回归中的超参数吗?
通过使用由模型生成的类成员资格概率的阈值来确定(二进制)逻辑回归的预测类。据我了解,默认情况下通常使用0.5。 但是改变阈值将改变预测的分类。这是否意味着阈值是超参数?如果是这样,为什么(例如)为什么无法使用scikit-learn的GridSearchCV方法轻松地在阈值网格中进行搜索(就像对正则化参数所做的那样C)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.