Questions tagged «penalized»

在模型拟合过程中包括其他约束(通常是复杂性的代价)。用于防止过度拟合/提高预测准确性。

3
带有交互作用项的LASSO-主效应缩小到零可以吗?
LASSO回归将系数缩小为零,从而有效地提供了模型选择。我相信在我的数据中,名义协变量和连续协变量之间存在有意义的相互作用。但是,真实模型的“主要影响”不一定有意义(非零)。当然我不知道,因为真正的模型是未知的。我的目标是找到真实的模型并尽可能地预测结果。 我了解到,在建立交互之前,经典的建模方法总是会包含主要效果。因此,如果在同一模型中存在协变量的交互作用,那么就不会有没有两个协变量和的主效应的模型。因此,该功能会 仔细选择模型术语(例如,基于后向或前向AIC)以遵守该规则。XXXžžZX* ZX∗žX*ZstepR LASSO的工作方式似乎有所不同。由于所有参数都是不利的,因此毫无疑问会发生这样的情况,即主效应缩小为零,而最佳(例如,交叉验证)模型的交互作用为非零。这是我特别为我的数据发现当使用R的glmnet软件包。 我收到了基于上面引用的第一条规则的批评,即,我最终的交叉验证的套索模型不包括一些非零交互的相应主效应项。但是,在这种情况下,此规则似乎有些奇怪。最终的问题是真实模型中的参数是否为零。假设它是,但交互作用为非零,则LASSO可能会识别出这一点,从而找到正确的模型。实际上,由于该模型不包含真正为零的主效应(实际上是噪声变量),因此根据该模型进行的预测似乎更为精确。 我是否可以基于此理由驳斥批评,还是应该采取一些预防措施,使LASSO在交互作用术语之前确实包含主要作用?

2
KKT与套索回归的无约束公式
L1惩罚回归(又名套索)以两种形式表示。设两个目标函数为 Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. 然后将两种不同的制剂是 argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 受 ||β||1≤t,||β||1≤t, ||\beta||_1 \leq t, 和等同 argminβQ2.argminβQ2. \text{argmin}_\beta \; Q_2. 使用Karush-Kuhn-Tucker(KKT)条件,很容易看出第一种配方的平稳性条件等同于采用第二种配方的梯度并将其设置为0。我找不到,也找不到,是第一种配方的补充松弛条件λ(||β||1−t)=0λ(||β||1−t)=0\lambda\left(||\beta||_1 - t\right) = 0如何通过第二种配方的溶液保证得到满足。



1
贝叶斯尖峰和平板与惩罚方法
我正在阅读Steven Scott关于BSTS R包的幻灯片(您可以在这里找到它们:slides)。 在某个时候,当谈到在结构时间序列模型中包括许多回归变量时,他介绍了回归系数的尖峰和板坯先验,并说与惩罚方法相比,它们更好。 斯科特(Scott)说,以一个具有100个预测变量的数据集为例: 惩罚方法对包含/排除哪些变量做出单一决定,这意味着它们决定了一个预测子集,即在可能变量中的一个模型。210021002^{100} “套索(和相关)先验不稀疏,它们在模式下而不是后验分布上引起稀疏” 在这一点上,他介绍了Spike和Slab先验。 我想我有直觉,但我想确定一下: 从根本上说,他们基本上使用蛮力方法测试要包括的每个回归变量子集是否更好? 这样做的缺点是计算时间吗? 当您说“套索(及相关)...但不在后验分布中”时,您认为他是什么意思?

2
如果以巧妙的方式应用收缩率,对于效率更高的估算器来说,收缩率是否始终会更好?
假设我有两个估算器和是相同参数一致估算器,并且 ,在psd的意义上为。因此,渐近比更有效。这两个估计器基于不同的损失函数。 β 2β0√βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2) β 1 β 2V1≤V2V1≤V2V_1 \leq V_2βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2 现在,我想寻找一些收缩技术来改善估计量的有限样本属性。 假设我发现了一种收缩技术,可以改善有限样本中的估算器,并为我提供等于的MSE值。这是否意味着我可以找到一种适用于收缩方法 ,使我的MSE 不大于? γ 2 β 1βˆ2β^2\widehat{\beta}_2γˆ2γ^2\widehat{\gamma}_2βˆ1β^1\widehat{\beta}_1 γˆ2γ^2\widehat{\gamma}_2 换句话说,如果巧妙地应用了收缩率,那么对于更高效的估算器来说,收缩率是否总是更好地工作?

2
回归中的B样条VS高阶多项式
我没有特定的示例或任务。我只是使用b样条的新手,我想在回归上下文中更好地了解此函数。 假设我们要评估响应变量与某些预测变量x 1,x 2,...之间的关系。。。,X p。预测变量包括一些数值变量和一些分类变量。yyyx1,x2,...,xpx1,x2,...,xpx_1, x_2,...,x_p 假设在拟合回归模型后,数值变量之一(例如是有效的。之后的逻辑步骤是评估是否需要更高阶的多项式,例如:x 2 1和x 3 1,以便在不过度拟合的情况下充分说明该关系。x1x1x_1x21x12x_1^2x31x13x_1^3 我的问题是: 在什么时候选择b样条曲线或简单的高阶多项式。例如在R: y ~ poly(x1,3) + x2 + x3 与 y ~ bs(x1,3) + x2 + x3 您如何使用图来告知您在这两者之间的选择,以及从图上还不清楚时会发生什么情况(例如:由于大量数据点) 您将如何评估和x 3之间的双向交互作用项x2x2x_2x3x3x_3 对于不同类型的模型,上述变化如何 您是否会考虑从不使用高阶多项式并始终拟合b样条并惩罚高灵活性?

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
glmnet如何处理过度分散?
我有一个关于如何对计数数据进行文本建模的问题,尤其是如何使用该lasso技术来减少特征。 假设我有N篇在线文章以及每篇文章的综合浏览量。我为每篇文章提取了1克和2克,我想对1,2克进行回归。由于特征(1,2克)比观察的数量更多,所以套索将是减少特征数量的好方法。另外,我发现glmnet运行套索分析非常方便。 然而,网页浏览量计数的overdispersed(方差>的意思),但glmnet不提供quasipoisson(明确的),或者negative binomial,但poisson对数的数据。我想到的解决方案是对log transform计数数据(社会科学家中常用的方法)进行计数,并使响应变量大致遵循正态分布。因此,我可以使用高斯族对数据进行建模glmnet。 所以我的问题是:这样做合适吗?或者,应我只是用泊松的glmnet情况下glmnet手柄quasipoisson?还是有其他R软件包可以处理这种情况? 非常感谢你!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.