统计和大数据 optimization

4

例如，在进行回归时，要选择的两个超参数通常是函数的容量（例如多项式的最大指数）和正则化量。我感到困惑的是，为什么不只选择一个低容量函数，然后忽略任何正则化？这样，它不会过拟合。如果我同时具有高容量功能和正则化功能，那是否与低容量功能和无正则化功能一样？

32 regression machine-learning optimization regularization polynomial

1

PCA目标函数：最大化方差和最小化误差之间有什么联系？

可以根据相关矩阵来表示PCA算法（假设数据XXX已经被归一化，我们仅考虑投影到第一台PC上）。目标函数可以写成： maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. 很好，我们使用拉格朗日乘子来求解，即重写为： maxw[(Xw)T(Xw)−λwTw],maxw[(Xw)T(Xw)−λwTw], \max_w [(Xw)^T(Xw) - \lambda w^Tw], 相当于 maxw(Xw)T(Xw)wTw,maxw(Xw)T(Xw)wTw, \max_w \frac{ (Xw)^T(Xw) }{w^Tw}, 因此（在Mathworld上参见此处）似乎等于maxw∑i=1n(distance from point xi to line w)2.maxw∑i=1n(distance from point xi to line w)2.\max_w \sum_{i=1}^n \text{(distance from point $x_i$ to line $w$)}^2. 但这是为了最大化点与线之间的距离，从我在这里所读的内容来看，这是不正确的-应该是，而不是\ max。我的错误在哪里？最大minmin\minmaxmax\max 或者，有人可以告诉我最大化投影空间中的方差与最小化点与线之间的距离之间的联系吗？

32 pca optimization

1

我们是否需要调整随机森林中的树木数量？

随机森林分类器的软件实现具有许多参数，以允许用户微调算法的行为，包括森林中的树数。是否需要以与相同的方式调整该参数，以尝试每次拆分时尝试使用的功能数量（Leo Breiman称之为）？m米mmtry

30 classification optimization random-forest hyperparameter

6

为什么不使用三阶导数进行数值优化？

如果Hessians如此擅长优化（例如参见Newton方法），为什么要停在那里？我们使用三阶，四阶，五阶和六阶导数吗？为什么不？

29 optimization gradient-descent hessian

1

XGBoost损失函数与泰勒展开式的近似

例如，以第次迭代的XGBoost模型的目标函数为例：ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) 其中是损失函数，是第个树的输出，是正则化。近似值是快速计算的（许多）关键步骤之一：ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), 其中和是损失函数的一阶和二阶导数。gigig_ihih一世h_i 我要问的是令人信服的论点，以揭开上述近似为何起作用的神秘色彩： 1）具有上述近似值的XGBoost与具有完整目标函数的XGBoost相比如何？近似中丢失了哪些潜在的有趣的高阶行为？ 2）很难形象化（并取决于损失函数），但是，如果损失函数具有较大的三次方分量，则逼近可能会失败。怎么不给XGBoost造成问题？

28 optimization loss-functions boosting xgboost taylor-series

1

从lmer模型计算效果的可重复性

我刚刚碰到了这篇论文，该论文描述了如何通过混合效应建模来计算测量的可重复性（又称可靠性，又称类内相关性）。R代码为： #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

自由度可以是非整数吗？

当我使用GAM时，它给了我剩余的DF为（代码的最后一行）。这意味着什么？超越GAM示例，通常，自由度可以是非整数吗？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

在分类中选择不同的损失函数以近似0-1损失有什么影响

我们知道有些目标函数更容易优化，而有些则很难。而且我们有很多损失函数要使用但很难使用，例如0-1损失。因此，我们找到了一些代理丢失功能来完成这项工作。例如，我们使用铰链损失或逻辑损失来“近似” 0-1损失。接下来的情节来自克里斯·毕晓普（Chris Bishop）的PRML书。铰链损耗用蓝色绘制，对数损耗用红色绘制，平方损耗用绿色绘制，0/1误差用黑色绘制。我了解我们之所以设计（针对铰链和逻辑损失）的原因是我们希望目标函数是凸的。通过查看铰链损失和逻辑损失，它会对严重错误分类的实例进行更严厉的处罚，有趣的是，如果分类不正确，则还会对正确分类的实例进行惩罚。这是一个非常奇怪的设计。我的问题是，通过使用不同的“代理损失函数”（例如铰链损失和物流损失），我们需要支付的价格是多少？

27 machine-learning classification optimization loss-functions

6

为什么要为理论机器学习研究凸优化？

我正在为理论博士研究理论机器学习-具体来说就是转移学习。出于好奇，为什么要上凸优化课程？在理论机器学习的研究中，我可以从凸优化中得到什么？

27 machine-learning optimization convex transfer-learning

6

为什么较小的权重会导致正规化模型更简单？

大约一年前，我完成了Andrew Ng的机器学习课程，现在正在写我的高中数学探索性知识，介绍Logistic回归的工作原理和优化性能的技术。这些技术之一当然是正则化。正则化的目的是通过扩展成本函数以包括模型简化的目标来防止过度拟合。我们可以通过将权重的每一个乘以平方，再乘以一些正则化参数，来对权重的大小进行惩罚，从而实现这一目标。现在，机器学习算法将旨在减小权重的大小，同时保持训练集的准确性。我们的想法是，我们将到达中间的某个点，在这里我们可以生成一个模型，该模型可以对数据进行泛化，而不会因为复杂度降低而无法适应所有随机噪声。我的困惑是为什么我们要惩罚砝码的大小？为什么较大的权重创建更复杂的模型，为什么较小的权重创建更简单/平滑的模型？吴安德（Andrew Ng）在他的演讲中声称，这种解释很难讲，但我想我现在正在寻找这种解释。 Ng教授确实给出了一个示例，说明新的成本函数如何使要素的权重（即x ^ 3和x ^ 4）趋于零，从而降低了模型的程度，但这并不能创建一个完整的模型。说明。我的直觉是，具有较小指数的特征将比具有较小指数的特征更易于接受（因为具有较小权重的特征就像函数的基础一样）。较小的权重意味着对高阶特征的较小“贡献”。但是这种直觉不是很具体。

27 regression machine-learning optimization regularization overfitting

1

反向模式自动微分的分步示例

不知道这个问题是否属于这里，但它与优化中的梯度方法密切相关，在这里似乎很热门。无论如何，如果您认为其他社区对此主题有更好的专业知识，请随时迁移。简而言之，我正在寻找反向模式自动微分的分步示例。关于该主题的文献不多，并且在不了解其背后的理论的情况下，很难理解现有的实现（例如TensorFlow中的内容）。因此，如果有人能详细显示我们传入的内容，我们如何处理它以及从计算图中得出的内容，我将非常感激。我最难解决的几个问题：种子 -为什么我们完全需要它们？反向差异化规则 -我知道如何进行差异化，但是我们如何向后退？例如，在从示例本节，我们怎么知道w2¯=w3¯w1w2¯=w3¯w1\bar{w_2}=\bar{w_3}w_1？我们只使用符号还是通过实际值？例如，在相同的示例，是wiwiw_i和wi¯wi¯\bar{w_i}符号或值？

27 optimization derivative tensorflow automatic-differentiation

1

统计，线性代数和机器学习中的经典符号是什么？这些符号之间有什么联系？

当我们阅读一本书时，理解符号在理解内容方面起着非常重要的作用。不幸的是，对于模型和优化问题的公式化，不同的社区有不同的符号约定。有人可以在这里总结一些配方符号并提供可能的原因吗？我在这里举一个例子：在线性代数文学中，经典著作是Strang 对线性代数的介绍。本书中最常用的符号是 Ax=bAx=b A x=b 其中是系数矩阵，是要求解的变量，是等式右侧的向量。该理由书选择这个符号是线性代数的主要目标是解决线性系统和弄清楚什么是矢量。给定这样的公式，OLS优化问题是x b xAAAxxxbbbxxx minimizex ∥Ax−b∥2minimizex ‖Ax−b‖2 \underset{x}{\text{minimize}}~~ \|A x-b\|^2 在统计学或机器学习素养（摘自《统计学学习的要素》一书中）中，人们使用不同的表示法来表示同一件事： Xβ=yXβ=yX \beta= y 其中XXX是数据矩阵，ββ\beta是要学习的学习系数或权重，yyy是响应。人们之所以使用它，是因为统计或机器学习社区中的人们是数据驱动的，因此数据和响应对他们来说是最有趣的事情，他们使用XXX和yyy来表示。现在我们可以看到所有可能的混淆：第一个方程式中的AAA与第二个方程式中的X相同XXX。在第二个方程中，XXX不需要解决。同样针对以下术语：AAA是线性代数中的系数矩阵，但它是统计中的数据。ββ\beta也称为“系数”。另外，我提到Xβ=yXβ=yX \beta=y并不是人们在机器学习中广泛使用的确切名称，人们使用半矢量化版本来汇总所有数据点。如 min∑iL(yi,f(xi))min∑iL(yi,f(xi)) \min \sum_i \text{L}(y_i,f(x_i)) 我认为这样做的原因是，当谈论随机梯度下降和其他不同的损失函数时，它是很好的。同样，对于线性回归以外的其他问题，简洁的矩阵符号也消失了。逻辑回归的矩阵符号任何人都可以对不同文献的符号进行更多的总结吗？我希望这个问题的明智答案可以为阅读不同文学作品的人们提供良好的参考。请不要受到我的示例 Ax=bAx=bA x=b和Xβ=yXβ=yX \beta=y。还有很多。如为什么会有两种不同的逻辑损失表述/符号？

26 machine-learning probability self-study optimization

6

对于凸问题，随机梯度下降（SGD）中的梯度是否始终指向全局极值？

给定凸成本函数，使用SGD进行优化，我们将在优化过程中的某个点处具有一个梯度（矢量）。我的问题是，给定凸面上的点，梯度是否仅指向函数增加/减少最快的方向，或者梯度始终指向成本函数的最优/极端？前者是本地概念，后者是全球概念。 SGD最终可以收敛到成本函数的极值。我想知道给定凸面上任意点的渐变方向与指向全局极值的方向之间的差异。梯度的方向应该是函数在该点上最快增减的方向，对吗？

25 neural-networks optimization gradient-descent sgd convex

3

亚当优化器被认为对其超参数值具有鲁棒性的原因是什么？

我正在阅读有关深度学习的Adam优化器的内容，并在Bengio，Goodfellow和Courville撰写的新书《深度学习》中遇到了以下句子：尽管有时需要将学习速率从建议的默认值更改，但通常认为Adam对超级参数的选择相当可靠。如果确实如此，那么这很重要，因为超参数搜索对于深度学习系统的统计性能非常重要（至少以我的经验）。因此，我的问题是，为什么亚当·鲁伯特（Adam Robust）拥有如此重要的参数？特别是和β 2？β1β1\beta_1β2β2\beta_2 我已经阅读了Adam的论文，但没有提供任何解释说明为什么它可以与这些参数一起使用，或者其坚固性为何。他们有其他理由吗？另外，因为我读的文件，似乎中超参数的数量，他们试图在那里非常小，只2和β 2只有3个。这怎么可能彻底的实证研究，如果它仅适用于2×3超参数？β1β1\beta_1β2β2\beta_2

24 neural-networks deep-learning optimization hyperparameter adam

1

如何定义梯度下降的终止条件？

实际上，我想问你如何定义梯度下降的终止条件。我可以基于迭代次数来停止它，即考虑参数值进行100次迭代吗？还是应该等两个参数值'new'和'old'的差异小到可以说？这肯定会花费很多时间。10− 610-610^{-6} 什么是最好的方法？就我而言，即使一次迭代也要花费大量时间。在这种情况下，如果我等待第二种情况，我想可能甚至要花几周的时间。因此，我应该使用哪种方法。如何解决这种情况？

24 algorithms optimization gradient-descent

Questions tagged «optimization»