Questions tagged «optimization»

将此标记用于统计信息中的优化用途。

4
为什么在多项式回归中使用正则化而不是降低度数?
例如,在进行回归时,要选择的两个超参数通常是函数的容量(例如多项式的最大指数)和正则化量。我感到困惑的是,为什么不只选择一个低容量函数,然后忽略任何正则化?这样,它不会过拟合。如果我同时具有高容量功能和正则化功能,那是否与低容量功能和无正则化功能一样?

1
PCA目标函数:最大化方差和最小化误差之间有什么联系?
可以根据相关矩阵来表示PCA算法(假设数据XXX已经被归一化,我们仅考虑投影到第一台PC上)。目标函数可以写成: maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. 很好,我们使用拉格朗日乘子来求解,即重写为: maxw[(Xw)T(Xw)−λwTw],maxw[(Xw)T(Xw)−λwTw], \max_w [(Xw)^T(Xw) - \lambda w^Tw], 相当于 maxw(Xw)T(Xw)wTw,maxw(Xw)T(Xw)wTw, \max_w \frac{ (Xw)^T(Xw) }{w^Tw}, 因此(在Mathworld上参见此处)似乎等于maxw∑i=1n(distance from point xi to line w)2.maxw∑i=1n(distance from point xi to line w)2.\max_w \sum_{i=1}^n \text{(distance from point $x_i$ to line $w$)}^2. 但这是为了最大化点与线之间的距离,从我在这里所读的内容来看,这是不正确的-应该是,而不是\ max。我的错误在哪里?最大minmin\minmaxmax\max 或者,有人可以告诉我最大化投影空间中的方差与最小化点与线之间的距离之间的联系吗?
32 pca  optimization 



1
XGBoost损失函数与泰勒展开式的近似
例如,以第次迭代的XGBoost模型的目标函数为例:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) 其中是损失函数,是第个树的输出,是正则化。近似值是快速计算的(许多)关键步骤之一:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), 其中和是损失函数的一阶和二阶导数。gigig_ihih一世h_i 我要问的是令人信服的论点,以揭开上述近似为何起作用的神秘色彩: 1)具有上述近似值的XGBoost与具有完整目标函数的XGBoost相比如何?近似中丢失了哪些潜在的有趣的高阶行为? 2)很难形象化(并取决于损失函数),但是,如果损失函数具有较大的三次方分量,则逼近可能会失败。怎么不给XGBoost造成问题?

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
在分类中选择不同的损失函数以近似0-1损失有什么影响
我们知道有些目标函数更容易优化,而有些则很难。而且我们有很多损失函数要使用但很难使用,例如0-1损失。因此,我们找到了一些代理丢失功能来完成这项工作。例如,我们使用铰链损失或逻辑损失来“近似” 0-1损失。 接下来的情节来自克里斯·毕晓普(Chris Bishop)的PRML书。铰链损耗用蓝色绘制,对数损耗用红色绘制,平方损耗用绿色绘制,0/1误差用黑色绘制。 我了解我们之所以设计(针对铰链和逻辑损失)的原因是我们希望目标函数是凸的。 通过查看铰链损失和逻辑损失,它会对严重错误分类的实例进行更严厉的处罚,有趣的是,如果分类不正确,则还会对正确分类的实例进行惩罚。这是一个非常奇怪的设计。 我的问题是,通过使用不同的“代理损失函数”(例如铰链损失和物流损失),我们需要支付的价格是多少?


6
为什么较小的权重会导致正规化模型更简单?
大约一年前,我完成了Andrew Ng的机器学习课程,现在正在写我的高中数学探索性知识,介绍Logistic回归的工作原理和优化性能的技术。这些技术之一当然是正则化。 正则化的目的是通过扩展成本函数以包括模型简化的目标来防止过度拟合。我们可以通过将权重的每一个乘以平方,再乘以一些正则化参数,来对权重的大小进行惩罚,从而实现这一目标。 现在,机器学习算法将旨在减小权重的大小,同时保持训练集的准确性。我们的想法是,我们将到达中间的某个点,在这里我们可以生成一个模型,该模型可以对数据进行泛化,而不会因为复杂度降低而无法适应所有随机噪声。 我的困惑是为什么我们要惩罚砝码的大小?为什么较大的权重创建更复杂的模型,为什么较小的权重创建更简单/平滑的模型?吴安德(Andrew Ng)在他的演讲中声称,这种解释很难讲,但我想我现在正在寻找这种解释。 Ng教授确实给出了一个示例,说明新的成本函数如何使要素的权重(即x ^ 3和x ^ 4)趋于零,从而降低了模型的程度,但这并不能创建一个完整的模型。说明。 我的直觉是,具有较小指数的特征将比具有较小指数的特征更易于接受(因为具有较小权重的特征就像函数的基础一样)。较小的权重意味着对高阶特征的较小“贡献”。但是这种直觉不是很具体。

1
反向模式自动微分的分步示例
不知道这个问题是否属于这里,但它与优化中的梯度方法密切相关,在这里似乎很热门。无论如何,如果您认为其他社区对此主题有更好的专业知识,请随时迁移。 简而言之,我正在寻找反向模式自动微分的分步示例。关于该主题的文献不多,并且在不了解其背后的理论的情况下,很难理解现有的实现(例如TensorFlow中的内容)。因此,如果有人能详细显示我们传入的内容,我们如何处理它以及从计算图中得出的内容,我将非常感激。 我最难解决的几个问题: 种子 -为什么我们完全需要它们? 反向差异化规则 -我知道如何进行差异化,但是我们如何向后退?例如,在从示例本节,我们怎么知道w2¯=w3¯w1w2¯=w3¯w1\bar{w_2}=\bar{w_3}w_1? 我们只使用符号还是通过实际值?例如,在相同的示例,是wiwiw_i和wi¯wi¯\bar{w_i}符号或值?

1
统计,线性代数和机器学习中的经典符号是什么?这些符号之间有什么联系?
当我们阅读一本书时,理解符号在理解内容方面起着非常重要的作用。不幸的是,对于模型和优化问题的公式化,不同的社区有不同的符号约定。有人可以在这里总结一些配方符号并提供可能的原因吗? 我在这里举一个例子:在线性代数文学中,经典著作是Strang 对线性代数的介绍。本书中最常用的符号是 Ax=bAx=b A x=b 其中是系数矩阵,是要求解的变量,是等式右侧的向量。该理由书选择这个符号是线性代数的主要目标是解决线性系统和弄清楚什么是矢量。给定这样的公式,OLS优化问题是x b xAAAxxxbbbxxx minimizex ∥Ax−b∥2minimizex ‖Ax−b‖2 \underset{x}{\text{minimize}}~~ \|A x-b\|^2 在统计学或机器学习素养(摘自《统计学学习的要素》一书中)中,人们使用不同的表示法来表示同一件事: Xβ=yXβ=yX \beta= y 其中XXX是数据矩阵,ββ\beta是要学习的学习系数或权重,yyy是响应。人们之所以使用它,是因为统计或机器学习社区中的人们是数据驱动的,因此数据和响应对他们来说是最有趣的事情,他们使用XXX和yyy来表示。 现在我们可以看到所有可能的混淆:第一个方程式中的AAA与第二个方程式中的X相同XXX。在第二个方程中,XXX不需要解决。同样针对以下术语:AAA是线性代数中的系数矩阵,但它是统计中的数据。ββ\beta也称为“系数”。 另外,我提到Xβ=yXβ=yX \beta=y并不是人们在机器学习中广泛使用的确切名称,人们使用半矢量化版本来汇总所有数据点。如 min∑iL(yi,f(xi))min∑iL(yi,f(xi)) \min \sum_i \text{L}(y_i,f(x_i)) 我认为这样做的原因是,当谈论随机梯度下降和其他不同的损失函数时,它是很好的。同样,对于线性回归以外的其他问题,简洁的矩阵符号也消失了。 逻辑回归的矩阵符号 任何人都可以对不同文献的符号进行更多的总结吗?我希望这个问题的明智答案可以为阅读不同文学作品的人们提供良好的参考。 请不要受到我的示例 Ax=bAx=bA x=b和Xβ=yXβ=yX \beta=y。还有很多。如 为什么会有两种不同的逻辑损失表述/符号?

6
对于凸问题,随机梯度下降(SGD)中的梯度是否始终指向全局极值?
给定凸成本函数,使用SGD进行优化,我们将在优化过程中的某个点处具有一个梯度(矢量)。 我的问题是,给定凸面上的点,梯度是否仅指向函数增加/减少最快的方向,或者梯度始终指向成本函数的最优/极端? 前者是本地概念,后者是全球概念。 SGD最终可以收敛到成本函数的极值。我想知道给定凸面上任意点的渐变方向与指向全局极值的方向之间的差异。 梯度的方向应该是函数在该点上最快增减的方向,对吗?

3
亚当优化器被认为对其超参数值具有鲁棒性的原因是什么?
我正在阅读有关深度学习的Adam优化器的内容,并在Bengio,Goodfellow和Courville撰写的新书《深度学习》中遇到了以下句子: 尽管有时需要将学习速率从建议的默认值更改,但通常认为Adam对超级参数的选择相当可靠。 如果确实如此,那么这很重要,因为超参数搜索对于深度学习系统的统计性能非常重要(至少以我的经验)。因此,我的问题是,为什么亚当·鲁伯特(Adam Robust)拥有如此重要的参数?特别是和β 2?β1β1\beta_1β2β2\beta_2 我已经阅读了Adam的论文,但没有提供任何解释说明为什么它可以与这些参数一起使用,或者其坚固性为何。他们有其他理由吗? 另外,因为我读的文件,似乎中超参数的数量,他们试图在那里非常小,只2和β 2只有3个。这怎么可能彻底的实证研究,如果它仅适用于2×3超参数?β1β1\beta_1β2β2\beta_2

1
如何定义梯度下降的终止条件?
实际上,我想问你如何定义梯度下降的终止条件。 我可以基于迭代次数来停止它,即考虑参数值进行100次迭代吗? 还是应该等两个参数值'new'和'old'的差异小到可以说?这肯定会花费很多时间。10− 610-610^{-6} 什么是最好的方法?就我而言,即使一次迭代也要花费大量时间。在这种情况下,如果我等待第二种情况,我想可能甚至要花几周的时间。 因此,我应该使用哪种方法。如何解决这种情况?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.