Questions tagged «optimization»

将此标记用于统计信息中的优化用途。

1
受限制的最大似然比小于
此问题处理线性模型的特定版本中的受限最大似然(REML)估计,即: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), 其中为(Ñ × p)矩阵由参数化α ∈ [R ķ,因为是Σ (α )。β是令人讨厌的参数的未知向量;兴趣是在估计α,我们有ķ ≤ p « Ñ。通过最大可能性估计模型没有问题,但是我想使用REML。众所周知,参见例如LaMotte的,即似然甲' ÿ,其中阿是任何半正交矩阵,使得X(α)X(α)X(\alpha)n×pn×pn \times pα∈Rkα∈Rk\alpha \in \mathbb R^kΣ(α)Σ(α)\Sigma(\alpha)ββ\betaαα\alphak≤p≪nk≤p≪nk\leq p\ll nA′YA′YA'YAAA可以写成A′X=0A′X=0A'X=0 LREML(α∣Y)∝|X′X|1/2|Σ|−1/2|X′Σ−1X|−1/2exp{−12r′Σ−1r},r=(I−X(X′Σ−1X)+X′Σ−1)Y,LREML(α∣Y)∝|X′X|1/2|Σ|−1/2|X′Σ−1X|−1/2exp⁡{−12r′Σ−1r},r=(I−X(X′Σ−1X)+X′Σ−1)Y, L_{\text{REML}}(\alpha\mid Y) \propto\vert X'X\vert^{1/2} \vert \Sigma\vert^{-1/2}\vert X'\Sigma^{-1}X\vert^{-1/2}\exp\left\{-\frac{1}{2} r'\Sigma^{-1}r \right\}, \\ r = (I - X(X'\Sigma^{-1}X)^+X'\Sigma^{-1})Y, 当为完整列等级时XXX。 我的问题是,对于某些完全合理且科学有趣的,矩阵X (α …

2
机器学习中的能量最小化是什么?
我正在阅读有关计算机视觉中不适定问题的优化的信息,并且遇到了以下有关Wikipedia的优化的解释。我不明白的是,为什么他们在计算机视觉中将这种优化称为“ 能量最小化 ”? 优化问题可以通过以下方式表示: 给定:函数从某些集合A到实数f:A→Rf:A→Rf: A \to RAAA 寻求:元件在甲使得˚F (X 0)≤ ˚F (X )对于所有X中阿 ( “最小化”)或使得˚F (X 0)≥ ˚F (X )对于所有X中阿 (”最大化”)。x0x0x_0AAAf(x0)≤f(x)f(x0)≤f(x)f(x_0) ≤ f(x)xxxAAAf(x0)≥f(x)f(x0)≥f(x)f(x_0) ≥ f(x)xxxAAA 这种表述称为优化问题或数学编程问题(该术语与计算机编程不直接相关,但仍在线性编程中使用,例如,请参见下面的历史记录)。在这个通用框架中可以模拟许多现实和理论问题。在物理学和计算机视觉领域中,使用该技术提出的问题可能将该技术称为能量最小化,说到函数的值代表正在建模的系统的能量。fff

2
为什么不使用梯度下降优化k均值?
我知道k-均值通常使用优化的期望最大化。但是,我们可以像优化其他任何函数一样优化其损失函数! 我发现一些论文实际上对大型k均值使用随机梯度下降法,但是我的问题无法得到解答。 那么,有人知道为什么吗?是因为期望最大化收敛得更快了吗?是否有任何特别的保证吗?还是历史原因?

2
优化:统计中所有邪恶的根源?
我之前听过以下表达: “优化是统计中所有邪恶的根源”。 例如,该线程的最高答案是在选择模型时过于激进地进行优化的危险而做出该声明。 我的第一个问题是:这句话是否特别应归于任何人?(例如,在统计资料中) 据我了解,该声明涉及过拟合的风险。传统观点认为适当的交叉验证已经可以解决这个问题,但是看起来这个问题还不止于此。 即使遵循严格的交叉验证协议(例如100个嵌套的10倍CV),统计学家和ML实践者也应该警惕过度优化模型吗?如果是这样,我们如何知道何时停止搜索“最佳”模型?

1
用于相等和不等式约束的约束优化库
对选择适合我的优化功能的约束优化库有什么建议吗?我正在最小化ai)具有线性等式和不等式约束的非线性函数,并且ii)具有函数的梯度和粗麻布。 如果有帮助,我要最小化的函数是Kullback-Liebler散度。 constrOptim仅处理不平等约束。Quadprog处理二次方。信任不支持约束。因此,KL差异不适合这些解决方案。 R Cran任务页面上有很多用于优化的解决方案。我能够使用fmincon()函数在MATLAB中执行优化,该函数似乎使用了内部点或信任区域反射。理想情况下,有一个非常适合定义的问题的库。

3
如何在机器学习管道中对特征选择和超参数优化进行排序?
我的目标是对传感器信号进行分类。到目前为止,我的解决方案的概念是:i)从原始信号中获取工程特征ii)使用ReliefF和聚类方法选择相关特征iii)应用NN,Random Forest和SVM 但是我陷入了困境。在ii)和iii)中,存在用于ReliefF的k-最近的Neigbours或窗口长度的超参数,对其进行评估的传感器信号,或NN的每一层中的隐藏单位数 我在这里看到3个问题:1)调整特征选择参数会影响分类器的性能2)优化分类器的超参数会影响特征的选择。3)评估配置的每种可能组合都是很困难的。 所以我的问题是:a)我可以做一个简化的假设,可以将st调整特征选择参数与调整分类器参数解耦吗?b)还有其他可能的解决方案吗?

2
交叉验证和参数优化
使用10倍交叉验证时,我对参数优化存在疑问。 我想问一下,在每次折叠的模型训练过程中参数是否应该固定,即(1)为每个折叠的平均精度选择一组优化的参数。 要么 (2)我应该为每个折页找到优化参数,然后每个折页使用不同的优化参数来训练其模型,然后分别对折页的测试数据进行测试,最后平均每个折页的准确性作为结果? 交叉验证的正确方法是哪一种?非常感谢。

1
L-BFGS如何工作?
本文的目的是通过最大化正则对数似然来优化一些参数。然后他们计算偏导数。然后作者提到,他们使用标准准牛顿程序L-BFGS优化方程,以优化许多变量的平滑函数(没有更多细节)。 它是如何工作的 ?


2
优化与机器学习
我想知道多少机器学习需要优化。据我所知,对于从事机器学习的人们来说,统计数据是一个重要的数学主题。同样,对于从事机器学习的人来说,了解凸优化或非凸优化有多重要?

2
简述KKT
目的 确认对KKT的理解是否正确。寻求有关KKT的进一步解释和确认。 背景 试图了解KKT条件,尤其是补充条件,在SVM文章中总是突然出现这种情况。我不需要抽象公式列表,但确实需要具体,直观和图形化的说明。 题 如果使成本函数f(X)最小的P在约束内(g(P)> = 0),则为解。KKT在这种情况下似乎无关紧要。 KKT似乎说,如果P不在约束内,那么解X应该在图中满足。到底是KKT,还是我想念其他重要方面? 其他说明 f(x)是否应凸出才能应用KKT? g(x)是否应线性适用于KKT? λ* g(X)= 0时,λ是否必要?为什么g(X)= 0或g(Xi)= 0还不够? 参考文献 拉格朗日乘积KKT条件 SVM中的每个排水沟点都有正乘数吗? http://fnorio.com/0136Lagrange_method_of_undetermined_multipliers/Lagrange_method_of_undetermined_multipliers.html 更新1 感谢您的回答,但仍然难以理解。仅在此处关注必要性: 马修·冈恩(Matthew Gunn)回答中关于非最佳点(绿色圆圈)和KKT的条件(2)在那里是否不满足?就像Mark L. Stone的答案那样,通过观察Hessian可以识别出这一点吗? 我想另外一种情况是鞍点,但是否同样适用? 用户名

1
协作过滤的最新技术
我正在研究一个用于协同过滤(CF)的项目,即完成部分观察到的矩阵或更一般的张量。我是该领域的新手,最终,对于这个项目,我不得不将我们的方法与当今其他著名的方法进行比较,将提议的方法与它们进行比较,即CF中的最新技术。 我的搜索显示了以下方法。确实,我是通过查看其中的一些论文及其参考文献,或者在进行比较时查看实验部分来发现它们的。我很高兴知道新提出的方法并与SoTA进行比较,那么以下哪个是一个不错的选择?如果没有他们,我很高兴认识一个好的代表。 基于矩阵分解: 加权低秩近似(ICML 2003) 为协作过滤建模用户评级配置文件(NIPS 2003) 协同过滤的多重乘数模型(ICML 2004) 用于协作预测的快速最大保证金矩阵分解(ICML 2005) 概率矩阵分解(NIPS 2007) 贝叶斯概率矩阵分解(ICML 2008) 基于回归的潜在因子模型(KDD 2009) 具有高斯过程的非线性矩阵分解(ICML 2009) 动态Poission分解(ACM会议推荐系统大会2015) 基于张量分解 使用多维方法将上下文信息整合到推荐系统中(ACM信息系统交易(TOIS)2005) 贝叶斯概率张量因式分解(SIAM Data Mining 2010) 通过黎曼优化实现低秩张量完成(BIT数值数学54.2(2014))

2
如果p> n,套索最多选择n个变量
弹性网的动机之一是对LASSO的以下限制: 在情况下,由于凸优化问题的性质,套索在饱和之前最多选择n个变量。这似乎是变量选择方法的限制功能。此外,除非系数的L1-范数上的界限小于某个值,否则套索的定义不明确。p>np>np > n (http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full) 我知道LASSO是一个二次规划问题,但也可以通过LARS或逐元素梯度下降来解决。但是我不明白,如果,其中是预测变量的数量,是样本大小,那么在这些算法中我会遇到问题。为什么使用弹性网解决了这个问题,我将问题扩大到明显超过变量。p n p + n pp>np>np > npppnnnp+np+np+nppp

1
优化问题
我的一个朋友卖型号的搅拌机。一些搅拌器非常简单且便宜,而另一些则非常复杂且更昂贵。他的数据包括每个月的每个搅拌机的价格(由他确定)和每种型号的已售数量。为了建立某种表示法,他知道几个月j = 1 ,… ,n个向量 (p 1 j,… ,p k j)ķķkj = 1 ,… ,nĴ=1个,…,ñj=1,\dots,n 其中 p 我Ĵ是混合器模型的价格我月期间 Ĵ,和 Ñ 我Ĵ是混合器模型的售出单元数量我月期间 Ĵ。(p1 Ĵ,… ,pķ Ĵ)和(n1 Ĵ,… ,nķ Ĵ),(p1个Ĵ,…,pķĴ)和(ñ1个Ĵ,…,ñķĴ), (p_{1j},\dots,p_{kj}) \qquad \textrm{and} \qquad (n_{1j},\dots,n_{kj}) \, , p我Ĵp一世Ĵp_{ij}一世一世iĴĴjñ我Ĵñ一世Ĵn_{ij}一世一世iĴĴj 给定数据,他想确定价格,以使他的预期未来销售价值最大化。(p∗1个,… ,p∗ķ)(p1个∗,…,pķ∗)(p^*_1,\dots,p^*_k) 我对如何使用某种泊松回归来开始对这个问题进行建模有一些想法,但是我真的不想重新发明轮子。证明期望的最大值在某些条件下存在也很好。有人能给我指出这类问题的文献吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.