Questions tagged «optimization»

将此标记用于统计信息中的优化用途。

4
威布尔分布的EM最大似然估计
注意: 我发布的是我的一位前学生的问题,由于技术原因,他自己无法发布。 给定来自pdf的Weibull分布的iid样本, 那里是有用的缺失变量表示 ,因此可以使用关联的EM(期望最大化)算法来查找的MLE ,而不是直接使用数值优化?x1,…,xnx1,…,xñx_1,\ldots,x_nFķ(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 fk(x)=∫Zgk(x,z)dzfk(x)=∫Zgk(x,z)dzf_k(x) = \int_\mathcal{Z} g_k(x,z)\,\text{d}zkkk

4
为什么要根据其他优化问题来定义优化算法?
我正在对机器学习的优化技术进行一些研究,但是很惊讶地发现,根据其他优化问题定义了大量的优化算法。我在下面说明一些示例。 例如https://arxiv.org/pdf/1511.05133v1.pdf 一切看起来不错,不错,但接下来有一个在更新....所以什么是算法,为求解?我们不知道,也没有说。因此,神奇的是,我们要解决另一个优化问题,即找到最小化向量,以使内积最小化-如何做到这一点?z k + 1 argmin精氨酸X精氨酸X\text{argmin}_xžk + 1zk+1z^{k+1}精氨酸argmin\text{argmin} 再举一个例子:https : //arxiv.org/pdf/1609.05713v1.pdf 一切都很好,直到您在算法中间点击了最接近的运算符为止,该运算符的定义是什么? 繁荣: 现在,请告诉我们,我们如何解决近端运算符中的问题?没有说 无论如何,取决于是什么,该优化问题看起来很难(NP HARD)。 f精氨酸XargminX\text{argmin}_xFFf 有人可以启发我: 为什么要根据其他优化问题定义这么多优化算法? (这不是鸡和蛋的问题吗?要解决问题1,您需要解决问题2,请使用解决问题3的方法,这依赖于解决问题....) 您如何解决这些算法中嵌入的优化问题?例如,,如何在右侧找到最小化器?Xk + 1= 精氨酸X真正复杂的损失函数Xķ+1个=精氨酸X真正复杂的损失函数x^{k+1} = \text{argmin}_x \text{really complicated loss function} 最终,我对如何以数字方式实现这些算法感到困惑。我认识到加和乘向量是python中的简单操作,但是,是否有一些函数(脚本)神奇地为您提供了函数的最小化器?精氨酸X精氨酸X\text{argmin}_x (赏金:有人能参考作者明确阐明高级优化算法中嵌入的子问题的算法的论文吗?)

2
机器学习技术是“近似算法”吗?
最近在cstheory stackexchange上有一个类似ML的问题,我发布了一个答案,推荐Powell的方法,梯度下降,遗传算法或其他“近似算法”。有人在评论中告诉我,这些方法是“启发式”方法,而不是 “近似算法”,并且常常不接近理论最优值(因为它们“经常陷入局部极小值”)。 别人同意吗?另外,在我看来,如果我将启发式算法设置为探索很大的搜索空间(例如,将参数/步长设置得很小),可以保证哪种算法可以接近理论最优值。在论文中没有看到。有人知道这已经在论文中显示或证明过了吗?(如果不是针对大型算法,则可能针对小型算法,例如NN等)

4
是否始终有针对任何MLE问题的最大化器?
我想知道是否总是有一个最大化器来解决任何最大(对数)似然估计问题?换句话说,是否存在一些分布及其某些参数,而MLE问题没有最大化器? 我的问题来自工程师的说法,即MLE中的成本函数(似然性或对数似然性,我不确定这是预期的)始终是凹形的,因此总是具有最大化值。 谢谢并恭祝安康!

3
坐标与梯度下降
我想知道Coordinate Descent和Gradient Descent这两种算法的不同用例是什么。 我知道坐标下降存在函数不平滑的问题,但是它已用于诸如SVM和LASSO的流行算法中。 但是我认为梯度下降法得到了更广泛的应用,尤其是随着人工神经网络的兴起以及许多其他机器学习任务的出现。 我的问题是:哪种类型的问题适合一种而不是另一种,在这方面,什么使SVM和LASSO的坐标下降适合,而对ANN的梯度下降适合? 选择优化算法时,应该如何在两者之间进行选择?

1
为什么神经网络的成本函数是非凸的?
这里有一个类似的线程(神经网络的成本函数是非凸的?),但我无法理解那里答案的要点,我再次询问的原因希望这可以澄清一些问题: 如果我使用差额成本函数平方和,那么我最终将优化形式的某物,其中是训练期间的实际标签值相位,是预测标签值。由于它具有正方形形式,因此应该是凸成本函数。那么,什么会使它在NN中不凸?Σñ我= 1(y一世- ÿ一世^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2ÿyyy^y^\hat{y}

4
使用最大似然拟合多元正态模型时,如何确保协方差矩阵的性质?
假设我有以下模型 yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i 其中, 是解释变量的向量,\ theta是非线性函数f和\ varepsilon_i \ sim N(0,\ Sigma)的参数,其中\ Sigma自然是K \ times K矩阵。yi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffε一世〜ñ(0 ,Σ )εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\Sigmaķ× KK×KK\times K 通常的目标是估算θθ\theta和ΣΣ\Sigma。明显的选择是最大似然法。此模型的对数似然性(假设我们有一个样本(y一世,X一世),我= 1 ,。。。,n(yi,xi),i=1,...,n(y_i,x_i),i=1,...,n)看起来像 l (θ ,Σ )= − n2日志(2 π)− n2日志DET Σ - Σ我= 1ñ(y一世- ˚F(x一世,θ ))′Σ− 1(y- ˚F(x一世,θ)))l(θ,Σ)=−n2log⁡(2π)−n2log⁡detΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(\theta,\Sigma)=-\frac{n}{2}\log(2\pi)-\frac{n}{2} \log\det\Sigma-\sum_{i=1}^n(y_i-f(x_i,\theta))'\Sigma^{-1}(y-f(x_i,\theta))) 现在,这似乎很简单,指定了对数似然性,将其放入数据中,并使用某种算法进行非线性优化。问题是如何确保ΣΣ\Sigma为正定。例如,optim在R中使用R(或任何其他非线性优化算法)将无法保证ΣΣ\Sigma是正定的。 那么问题是如何确保ΣΣ\Sigma保持正定值?我看到两种可能的解决方案: 重新参数化ΣΣ\Sigma为 RR′RR′RR',其中RRR是上三角或对称矩阵。然后ΣΣ\Sigma将始终是正定的,并且RRR可以不受约束。 使用配置文件可能性。推导θ^(Σ)θ^(Σ)\hat\theta(\Sigma)和\ hat {\ Sigma}(\ theta)的公式Σ^(θ)Σ^(θ)\hat{\Sigma}(\theta)。从一些\ theta_0开始θ0θ0\theta_0并迭代Σ^Ĵ= …

3
为什么是最大可能性而不是预期可能性?
为什么获得参数的最大似然估计如此常见,但实际上您从未听说过预期似然参数估计(即,基于期望值而不是似然函数的模式)?这主要是出于历史原因,还是出于实质性的技术或理论原因? 使用预期似然估计而不是最大似然估计是否有明显的优势和/或劣势? 有没有在预期的似然估计一些地区的常规使用?

2
如何在学习算法之间进行选择
我需要实现一个程序,根据一些训练数据将记录分为两类(对/错),我想知道应该查看哪种算法/方法。似乎有很多可供选择的选择-人工神经网络,遗传算法,机器学习,贝叶斯优化等,而我不确定从哪里开始。因此,我的问题是: 我应该如何选择应该用于问题的学习算法? 如果有帮助,这是我需要解决的问题。 训练数据: 训练数据由许多行组成,如下所示: Precursor1, Precursor2, Boolean (true/false) 运行 我会给出一堆的前体。 然后, 我从不同的算法中选择一种算法A(或动态生成一种算法),并将其应用于这些前体的每种可能组合,并收集发出的“记录”。“记录”由几个键值对*组成。 我应用了一些很棒的算法,并将这些记录分为2类(对/错)。 我将生成一个与火车数据具有相同格式的表: Precursor1, Precursor2, Boolean 整个程序的评分是基于我正确判断对错的几率。 *:“记录”看起来像这样(希望这样有意义) Record [1...*] Score -Precursor1 -Key -Precursor2 -Value 只有有限数量的可能的键。记录包含这些键的不同子集(某些记录具有key1,key2,key3 ...,其他记录具有key3,key4 ...等)。 我实际上需要2学习。一个是针对第1步的。我需要一个模块来查看Precursor对等,并确定要应用哪种算法才能发出比较记录。另一个是针对步骤2的。我需要一个模块来分析记录的收集并将它们分类为2个类别(对/错)。 先感谢您!

1
是否有逻辑上的解释说明为什么逻辑回归不适用于完美分离的情况?以及为什么添加正则化将解决此问题?
关于逻辑回归中的完美分离,我们有很多很好的讨论。例如,R中的逻辑回归导致完美的分离(Hauck-Donner现象)。怎么办?和Logistic回归模型不收敛。 我个人仍然觉得这为什么会是一个问题以及为什么添加正则化可以解决这个问题并不直观。我制作了一些动画,并认为这会有所帮助。因此,请亲自发布他的问题并回答,以便与社区分享。

7
为什么对称正定(SPD)矩阵如此重要?
我知道对称正定(SPD)矩阵的定义,但想了解更多。 从直觉上为什么它们如此重要? 这就是我所知道的。还有什么? 对于给定的数据,协方差矩阵为SPD。协方差矩阵是一项重要的指标,有关直观说明,请参见这篇出色的文章。 如果是SPD ,则二次形式是凸的。凸性对于可以确保本地解决方案是全局解决方案的函数是很好的属性。对于凸问题,有很多好的算法可以解决,但对于非凸问题则没有。甲12x⊤Ax−b⊤x+c12x⊤Ax−b⊤x+c\frac 1 2 x^\top Ax-b^\top x +cAAA 当为SPD时,二次形式的优化解与线性系统的解相同。因此,我们可以在两个经典问题之间进行转换。这很重要,因为它使我们能够使用在另一个域中发现的技巧。例如,我们可以使用共轭梯度法求解线性系统。减少1AAA甲X=bminimize 12x⊤Ax−b⊤x+cminimize 12x⊤Ax−b⊤x+c\text{minimize}~~~ \frac 1 2 x^\top Ax-b^\top x +cAx=bAx=bAx=b 有许多很好的算法(快速,数值稳定)对SPD矩阵更有效,例如Cholesky分解。 编辑:我不是想问一下SPD矩阵的身份,而是属性背后的直觉来显示重要性。例如,正如@Matthew Drury所提到的,如果矩阵是SPD,则特征值都是正实数,但是为什么所有正数都重要。@Matthew Drury对流动有一个很好的答案,这就是我想要的。




2
哪种优化方法最适合LSTM?
我一直在使用theano来试验LSTM,并且想知道哪种优化方法(SGD,Adagrad,Adadelta,RMSprop,Adam等)最适合LSTM?是否有关于该主题的研究论文? 另外,答案是否取决于我使用LSTM的应用程序类型?如果是这样,我正在使用LSTM进行文本分类(首先将文本转换为单词向量)。 最后,对于RNN,答案是相同还是不同?任何指向研究论文或个人见解的指针将不胜感激! LSTM似乎很强大,我有兴趣学习更多有关如何最好地使用它们的知识。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.