Questions tagged «optimization»

将此标记用于统计信息中的优化用途。

4
梯度下降优化
我正在尝试了解ML(机器学习)算法中的梯度下降优化。我知道这里有一个成本函数,其目的是使误差最小。在权重被优化以提供最小误差且使用偏导数的情况下,它是在每个步骤中同时改变和还是将其组合(例如,在几次迭代中仅被改变,当不再减小误差时,导数以?该应用程序可以是线性回归模型,逻辑回归模型或增强算法。ÿ^- ÿy^−y\hat y-yw1个,w2w1,w2w_1, w_2w1个w1w_1w2w2w_2w1个w1w_1w1个w1w_1w2w2w_2

1
我的神经网络甚至无法学习欧几里得距离
因此,我试图自学神经网络(用于回归应用,而不是对猫的图片进行分类)。 我的第一个实验是训练网络以实现FIR滤波器和离散傅立叶变换(在“之前”和“之后”信号上进行训练),因为这两个都是线性操作,可以由没有激活功能的单层实现。 两者都很好。 因此,我想看看是否可以添加abs()并使其学习幅度谱。首先,我考虑了在隐藏层中需要多少个节点,并意识到3个ReLU足以满足的粗略近似abs(x+jy) = sqrt(x² + y²),因此我自己对孤复数(2个输入→3个ReLU节点隐藏层→1个)进行了该操作的测试。输出)。有时它起作用: 但是在我尝试的大多数时候,它陷入了局部最小值,无法找到正确的形状: 我已经在Keras中尝试了所有优化器和ReLU变体,但是它们并没有太大的区别。我还能做些其他事情来使像这样的简单网络可靠地融合吗?还是我只是以错误的态度来解决这个问题,而您应该在问题上抛出不必要的更多节点,如果其中一半死亡,这没什么大不了的?

2
在梯度下降中使用固定步长时,为什么步长会变小?
假设我们正在做一个关于梯度合适的玩具示例,使用固定步长最小化二次函数。()α = 0.03 甲= [ 10 ,2 ; 2 ,3 ]XŤ一个XxTAxx^TAxα = 0.03α=0.03\alpha=0.03甲= [ 10 ,2 ; 2 ,3 ]A=[10,2;2,3]A=[10, 2; 2, 3] 如果在每次迭代中绘制的轨迹,我们将得到下图。当我们使用固定步长时,为什么点变得“非常密集” ?直观地,它看起来不像固定步长,而是递减的步长。Xxx PS:R代码包括情节。 A=rbind(c(10,2),c(2,3)) f <-function(x){ v=t(x) %*% A %*% x as.numeric(v) } gr <-function(x){ v = 2* A %*% x as.numeric(v) } x1=seq(-2,2,0.02) x2=seq(-2,2,0.02) df=expand.grid(x1=x1,x2=x2) contour(x1,x2,matrix(apply(df, …

4
训练神经网络进行回归总是可以预测均值
我正在训练一个简单的卷积神经网络进行回归,其中的任务是预测图像中盒子的(x,y)位置,例如: 网络的输出有两个节点,一个用于x,一个用于y。网络的其余部分是标准的卷积神经网络。损失是盒子的预测位置和地面真实位置之间的标准均方误差。我正在训练10000张这些图像,并在2000年进行验证。 我的问题是,即使经过大量培训,损失也不会真正减少。观察网络的输出后,我注意到对于两个输出节点,网络都倾向于输出接近零的值。这样,盒子位置的预测始终是图像的中心。预测中存在一些偏差,但始终在零附近。下面显示了损失: 我已经运行了比此图所示更多的时期,并且损失仍然从未减少。有趣的是,损失实际上增加了一点。 因此,似乎网络只是在预测训练数据的平均值,而不是学习合适的数据。关于这可能是什么的任何想法?我使用Adam作为优化器,初始学习率为0.01,并将relus作为激活 如果您对我的某些代码(Keras)感兴趣,请参见以下代码: # Create the model model = Sequential() model.add(Convolution2D(32, 5, 5, border_mode='same', subsample=(2, 2), activation='relu', input_shape=(3, image_width, image_height))) model.add(Convolution2D(64, 5, 5, border_mode='same', subsample=(2, 2), activation='relu')) model.add(Convolution2D(128, 5, 5, border_mode='same', subsample=(2, 2), activation='relu')) model.add(Flatten()) model.add(Dense(100, activation='relu')) model.add(Dense(2, activation='linear')) # Compile the model adam = Adam(lr=0.01, beta_1=0.9, …

1
计算多个期望值时如何最佳地分布抽奖
假设我们要计算一些期望值: EYEX|Y[f(X,Y)]EYEX|Y[f(X,Y)]E_YE_{X|Y}[f(X,Y)] 假设我们要使用蒙特卡洛模拟对此进行近似。 EYEX|Y[f(X,Y)]≈1RS∑r=1R∑s=1Sf(xr,s,yr)EYEX|Y[f(X,Y)]≈1RS∑r=1R∑s=1Sf(xr,s,yr)E_YE_{X|Y}[f(X,Y)] \approx \frac1{RS}\sum_{r=1}^R\sum_{s=1}^Sf(x^{r,s},y^r) 但是,假设从这两个分布中抽取样本成本很高,因此我们只能承受绘制固定数。 KKK 我们应该如何分配?示例包括每种分布的抽奖,或者极端情况下,外部抽奖,内部为抽奖,反之亦然,等等。K / 2 K − 1KKKK/2K/2K/2K−1K−1K-1 我的直觉告诉我,这将与分布相对于彼此的方差/熵有关。假设外一个是质点,则分割最小化MC误差将被绘制的1和绘制的的。 ÿKKKYYYX | ÿK−1K−1K-1X|YX|YX|Y 希望这很清楚。



1
各种R二次编程求解器之间有什么区别?
我正在寻找一个软件包来帮助我解决一些二次优化问题,并且我发现至少有六个不同的软件包。根据此页面: QP(二次编程,90C20):cplexAPI,kernlab,limSolve,LowRankQP,quadprog,Rcplex,Rmosek 其中一些(Rmosek和cplexAPI)依赖于其他专有程序包,因此我对这些程序不感兴趣。 其他QP软件包之间的显着区别是什么?
9 r  optimization 

2
广义线性模型的参数估计
默认情况下,当我们glm在R中使用函数时,它使用迭代加权最小二乘(IWLS)方法来找到参数的最大似然估计。现在我有两个问题。 IWLS估计是否可以保证似然函数的全局最大值?根据本演示文稿的最后一张幻灯片,我认为事实并非如此!我只是想确保这一点。 我们可以说上述问题1的原因是因为几乎所有数值优化方法都可能停留在局部最大值而不是全局最大值吗?

2
如何通过对R中使用optim最大化对数似然函数所估计的参数进行分析,从而估计出95%的置信区间?
如何通过对R中使用optim最大化对数似然函数所估计的参数进行分析,从而估计出95%的置信区间? 我知道我可以通过反转hessian渐近估计协方差矩阵,但我担心我的数据不符合该方法有效所需的假设。我希望使用其他方法来估计置信区间。 如Stryhn和Christensen以及Venables和Ripley的MASS书第8.4节,第220-221页中所述,轮廓似然方法是否合适? 如果是这样,是否有任何软件包可以帮助我在R中做到这一点?如果没有,这种方法的伪代码将是什么样?

2
通过制定可全局优化的成本函数来解决问题的优势
这是一个相当普遍的问题(即不一定特定于统计),但是我注意到机器学习和统计文献中的一种趋势,作者更喜欢采用以下方法: 方法1:通过制定可能(例如从计算的角度来看)找到全局最优解决方案的成本函数(例如通过制定凸成本函数)来获得对实际问题的解决方案。 而不是: 方法2:通过公式化成本函数来获得相同问题的解决方案,而对于该函数,我们可能无法获得全局最优解(例如,我们只能为其获得局部最优解)。 请注意,严格地说,这两个问题是不同的。假设我们可以为第一个找到全局最优解,而第二个找不到。 除了其他考虑因素(例如速度,易于实施等),我正在寻找: 对这种趋势的解释(例如数学或历史论证) 解决实际问题时,采用方法1而不是方法2带来的收益(实际和/或理论上)。

4
统计员进行数值优化的参考
我正在寻找针对统计学家的数值优化技术的可靠参考,也就是将这些方法应用于某些标准推论性问题(例如,通用模型中的MAP / MLE)。诸如梯度下降(直线和随机),EM及其衍生/概括,模拟退火等。 我希望它会有一些有关实现的实用说明(因此常常缺少论文)。它不必完全明确,但至少应提供可靠的书目。 一些粗略的搜索出现了几篇文章:Ken Lange的《统计学家的数值分析》和John Monahan的《统计学的数值方法》。每个人的评论似乎是混杂的(稀疏的)。在这两个书中,对目录的细读表明兰格的书的第二版与我所追求的最接近。

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.