Questions tagged «optimization»

将此标记用于统计信息中的优化用途。

1
为什么朴素贝叶斯分类器最适合0-1损失?
朴素贝叶斯分类器是基于最大化类成员资格的后验P (C | x )将项分配给类C的分类器,并假定项的特征是独立的。xxxCCCP(C|x)P(C|x)P(C|x) 0-1损失是指将任何未分​​类归类为“ 1”的损失,并将任何正确分类为“ 0”的损失。 我经常读(1),“朴素贝叶斯”分类器对于0-1损失是最佳的。为什么会这样呢? (1)一个示例性来源:贝叶斯分类器和贝叶斯误差

1
为什么在实践中不使用“无马鞍牛顿”下降算法?
最近,我读了Yann Dauphin等人的论文。识别和解决高维非凸优化中的鞍点问题,他们引入了一种有趣的下降算法,称为“无鞍牛顿”,该算法似乎是专门为神经网络优化设计的,因此不会卡在鞍点上像香草SGD这样的一阶方法。 该论文的历史可以追溯到2014年,因此并不是什么新鲜事物,但是,我还没有看到它被“野外使用”。为什么不使用此方法?对于现实世界中存在的问题/网络,Hessian计算是否过于严格?该算法是否甚至有一些开源实现,可能与某些主要的深度学习框架一起使用? 2019年2月更新:现在有一个实现:https : //github.com/dave-fernandes/SaddleFreeOptimizer)



1
高斯过程回归中的超参数调整
我正在尝试调整已实现的高斯过程回归算法的超参数。我只是想最大化由公式 ,其中K是与元素K_ {ij} = k(x_i,x_j)= b ^ {-1} \ exp(-\ frac {1} {2}(x_i-x_j)^ TM(x_i-x_j))+ a ^ {-1 } \ delta_ {ij}其中M = lI,而a,b和l是超参数。ķķ我Ĵ=ķ(X我,XĴ)=b-1个EXP(-1日志(y | X,θ)= − 12ÿŤķ− 1ÿy − 12日志(det (K))− n2日志(2 π)日志⁡(ÿ|X,θ)=-1个2ÿŤķÿ-1个ÿ-1个2日志⁡(t(ķ))-ñ2日志⁡(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)ķķK中号=升我一个,b升ķ我Ĵ= k (x一世,XĴ)= b− 1经验值(− 12(x一世− xĴ)Ť中号(x一世− xĴ))+ 一个− 1δ我Ĵķ一世Ĵ=ķ(X一世,XĴ)=b-1个经验值⁡(-1个2(X一世-XĴ)Ť中号(X一世-XĴ))+一种-1个δ一世ĴK_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}中号= 升余中号=升一世M=lI一,b一种,ba,b升升l 对数边际似然率wrt参数的偏导数由以下日志(y | X,θ)dθ= 12吨ř 一个Ç ë( …

3
PCA优化是否凸出?
主成分分析(PCA)的目标函数是使L2范数中的重构误差最小化(请参阅此处的 2.12节。另一种观点试图使投影的方差最大化。我们在此处也有一篇很不错的文章:PCA的目标函数是什么?)。 我的问题是PCA优化凸出吗?(我在这里找到了一些讨论,但希望有人可以在这里提供有关CV的很好的证明)。

2
如何用单纯形法求解最小绝对偏差?
argminwL(w)=∑ni=1|yi−wTx|arg⁡minwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min∑ni=1uimin∑i=1nui\min \sum_{i=1}^{n}u_{i} ui≥xTw−yii=1,…,nui≥xTw−yii=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n ui≥−(xTw−yi)i=1,…,nui≥−(xTw−yi)i=1,…,nu_i \geq -\left(\textbf{x}^T\textbf{w}-y_{i}\right) \; i = 1,\ldots,n 但是我不知道要逐步解决它,因为我是LP的新手。你有什么主意吗?提前致谢! 编辑: 这是我已解决此问题的最新阶段。我正在尝试按照以下说明解决问题: 步骤1:将其制成标准格式 minZ=∑ni=1uiminZ=∑i=1nui\min Z=\sum_{i=1}^{n}u_{i} xTw−ui+s1=yii=1,…,nxTw−ui+s1=yii=1,…,n \textbf{x}^T\textbf{w} -u_i+s_1=y_{i} \; i = 1,\ldots,n xTw+ui+s2=−yii=1,…,nxTw+ui+s2=−yii=1,…,n \textbf{x}^T\textbf{w} +u_i+s_2=-y_{i} \; i = 1,\ldots,n 服从s1≥0;s2≥0;ui≥0 i=1,...,ns1≥0;s2≥0;ui≥0 i=1,...,ns_1 \ge 0; s_2\ge 0; u_i \ge 0 …

1
默认的lme4优化器需要对高维数据进行大量迭代
TL; DR:lme4优化似乎是线性在默认情况下,模型参数数量,并且是这样慢比等效的glm与组虚拟变量模型。我有什么可以加快速度的吗? 我正在尝试适应一个相当大的分层logit模型(约5万行,100列,50组)。将正常的logit模型拟合到数据(带有用于组的虚拟变量)可以很好地工作,但是层次模型似乎被卡住了:第一个优化阶段可以很好地完成,但是第二个阶段需要进行很多迭代,而无需进行任何更改并且不停止。 编辑:我怀疑问题主要是我有这么多的参数,因为当我尝试将其设置maxfn为较低的值时会给出警告: Warning message: In commonArgs(par, fn, control, environment()) : maxfun < 10 * length(par)^2 is not recommended. 但是,参数估计在优化过程中完全没有改变,因此我仍然对执行该操作感到困惑。当我尝试设置maxfn优化器控件(尽管有警告)时,它似乎在完成优化后挂起。 这是一些重现随机数据问题的代码: library(lme4) set.seed(1) SIZE <- 50000 NGRP <- 50 NCOL <- 100 test.case <- data.frame(i=1:SIZE) test.case[["grouping"]] <- sample(NGRP, size=SIZE, replace=TRUE, prob=1/(1:NGRP)) test.case[["y"]] <- sample(c(0, 1), size=SIZE, replace=TRUE, prob=c(0.05, 0.95)) …


1
RMSProp和亚当vs SGD
我正在使用带有RMSProp,Adam和SGD的网络对EMNIST验证集进行实验。我使用SGD(学习率为0.1)和辍学(辍学概率为0.1)以及L2正则化(1e-05惩罚)达到了87%的准确度。当使用RMSProp和Adam测试相同的精确配置以及0.001的初始学习率时,我实现了85%的准确度和明显不那么平滑的训练曲线。我不知道如何解释这种行为。训练曲线缺乏平滑度并导致较低的准确性和较高的错误率的原因是什么?


2
将Pearson相关系数作为机器学习中的优化目标
在机器学习中(针对回归问题),我经常看到均方误差(MSE)或均方绝对误差(MAE)被用作最小化(加上正则化项)的误差函数。我想知道是否存在使用相关系数更合适的情况?如果存在这种情况,则: 与MSE / MAE相比,在什么情况下相关系数是更好的指标? 在这些情况下,MSE / MAE还是可以使用的良好代理费用功能吗? 直接使相关系数最大化是可能的吗?这是一个稳定的目标函数吗? 我找不到在优化中直接将相关系数用作目标函数的情况。如果有人可以向我介绍该领域的信息,我将不胜感激。


1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

2
用二次规划优化支持向量机
我正在尝试了解训练线性支持向量机的过程。我意识到,与使用二次编程求解器相比,SMV的属性可以更快地对其进行优化,但是出于学习目的,我希望了解其工作原理。 训练数据 set.seed(2015) df <- data.frame(X1=c(rnorm(5), rnorm(5)+5), X2=c(rnorm(5), rnorm(5)+3), Y=c(rep(1,5), rep(-1, 5))) df X1 X2 Y 1 -1.5454484 0.50127 1 2 -0.5283932 -0.80316 1 3 -1.0867588 0.63644 1 4 -0.0001115 1.14290 1 5 0.3889538 0.06119 1 6 5.5326313 3.68034 -1 7 3.1624283 2.71982 -1 8 5.6505985 3.18633 -1 9 4.3757546 …
12 r  svm  optimization 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.