Questions tagged «regularization»

在模型拟合过程中包括其他约束(通常是复杂性的代价)。用于防止过度拟合/提高预测准确性。

3
如何执行非负岭回归?
如何执行非负岭回归?非负套索可在中找到scikit-learn,但对于ridge,我无法强制beta的非负性,实际上,我得到的是负系数。有人知道为什么吗? 另外,我可以按照规则的最小二乘法实施ridge吗?将此问题移至另一个问题:我可以根据OLS回归实现岭回归吗?

2
对岭回归中“矩阵求逆的数值稳定性”的清晰解释及其在减少过拟合中的作用
我知道我们可以在最小二乘回归问题中采用正则化 w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] 并且这个问题有一个封闭形式的解决方案,如: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. 我们看到在第二个方程中,正则化只是在\ boldsymbol {X} ^ T \ boldsymbol {X}的对角线上添加了\ lambda,这样做是为了提高矩阵求逆的数值稳定性。λλ\lambdaXTXXTX\boldsymbol{X}^T\boldsymbol{X} 我目前对数值稳定性的“粗略”理解是,如果函数变得更加“数值稳定”,则其输出受输入噪声的影响较小。我很难将提高数值稳定性的概念与如何避免/减少过度拟合的问题联系在一起。 我曾尝试查看Wikipedia和其他一些大学网站,但他们没有深入解释为什么会这样。

1
在线性回归中,为什么正则化也会同时惩罚参数值?
目前正在学习岭回归,对于更复杂的模型(或更复杂的模型的定义)的惩罚我感到有些困惑。 据我了解,模型复杂度不一定与多项式阶数相关。因此:是比更复杂的模型2 + 3 + 4 x2+ 5 x3+ 6 x42+3+4X2+5X3+6X4 2 + 3+ 4x^2 + 5x^3 + 6x^45 x55X5 5x^5 而且我知道正则化的目的是保持模型复杂度低,例如说我们有一个五阶多项式F(x ; w )= w0+ w1个x + w2X2+ w3X3+ w4X4+ w5X5F(X;w)=w0+w1个X+w2X2+w3X3+w4X4+w5X5 f(x; w) = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4 + w_5x^5 参数越多,则0越好。 但是我不明白的是,如果是相同阶数的多项式,为什么较低的参数值会减少较少的损失?那么为什么会: 2 + …

1
正则化线性与RKHS回归
我正在研究RKHS回归中的正则化与线性回归之间的差异,但是我很难理解两者之间的关键差异。 给定的输入-输出对,我想估计的函数如下 ,其中是内核函数。可以通过求解来找到 系数 其中,在某种程度上滥用符号的情况下,内核矩阵K的第i,j个条目是{\ displaystyle K(x_ {i},x_ {j})}。这给出 \ begin {equation} \ alpha ^ * =(K + \ lambda nI)^ {-1} Y。\ end {equation}(xi,yi)(xi,yi)(x_i,y_i)f(⋅)f(⋅)f(\cdot)f(x)≈u(x)=∑i=1mαiK(x,xi),f(x)≈u(x)=∑i=1mαiK(x,xi),\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation}K(⋅,⋅)K(⋅,⋅)K(\cdot,\cdot)αmαm\alpha_m我,Ĵķķ(X我,XĴ)α*=(ķ+λÑ我)-1ÿ。minα∈Rn1n∥Y−Kα∥2Rn+λαTKα,minα∈Rn1n‖Y−Kα‖Rn2+λαTKα,\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation}i,ji,ji,jKKKK(xi,xj)K(xi,xj){\displaystyle K(x_{i},x_{j})} α∗=(K+λnI)−1Y.α∗=(K+λnI)−1Y.\begin{equation} \alpha^*=(K+\lambda nI)^{-1}Y. \end{equation} 另外,我们可以将该问题视为正常的岭回归/线性回归问题: 分α ∈ [Rñ1个ñ∥ ÿ− Kα ∥2[Rñ+ λ αŤα,分α∈[Rñ1个ñ‖ÿ-ķα‖[Rñ2+λαŤα,\begin{equation} {\displaystyle \min …

1
将岭回归应用于欠定方程组?
当,对值施加球形限制最小二乘问题可以写成 对于超定系统,。\ | \ cdot \ | _2是向量的欧几里得范数。y=Xβ+ey=Xβ+ey = X\beta + eδδ\deltaββ\betamin ∥y−Xβ∥22s.t. ∥β∥22≤δ2min⁡ ‖y−Xβ‖22s.t.⁡ ‖β‖22≤δ2\begin{equation} \begin{array} &\operatorname{min}\ \| y - X\beta \|^2_2 \\ \operatorname{s.t.}\ \ \|\beta\|^2_2 \le \delta^2 \end{array} \end{equation}∥⋅∥2‖⋅‖2\|\cdot\|_2 \ beta的对应解ββ\beta由 β^=(XTX+λI)−1XTy ,β^=(XTX+λI)−1XTy ,\begin{equation} \hat{\beta} = \left(X^TX + \lambda I\right)^{-1}X^T y \ , \end{equation} 可以从拉格朗日乘数的方法得出(λλ\lambda是乘数): L(β,λ)=∥y−Xβ∥22+λ(∥β∥22−δ2)L(β,λ)=‖y−Xβ‖22+λ(‖β‖22−δ2)\begin{equation} \mathcal{L}(\beta,\lambda) = …

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.