Questions tagged «overfitting»

建模误差(尤其是抽样误差)代替了变量之间可复制且信息丰富的关系,可改善模型拟合统计量,但可降低简约性,并恶化解释性和预测性有效性。


6
在高维度(
考虑一个具有预测变量和样本大小旧回归问题。通常的看法是,OLS估计量将过拟合,并且通常会比岭回归估计量好:通常使用交叉验证来找到最佳正则化参数。在这里,我使用10倍CV。澄清更新:当,通过“ OLS估计器”,我理解给出的“最小范数OLS估计器”pppβ = (X ⊤ X + λ 我)- 1 X ⊤ ÿ 。λ Ñ &lt; p β OLS = (X ⊤ X )+ X ⊤ Ŷ = X + ý 。nnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdan&lt;pn&lt;pn1000yyyp=50&lt;np=50&lt;np=50npppp=1000p=1000p=1000λ→0λ→0\lambda\to 0与最佳岭回归效果一样好。λλ\lambda 这怎么可能?它对我的数据集有何影响?我是否遗漏了一些明显的东西,或者确实违反直觉?假设和都大于,则在质上有什么区别?p = 1000 np=100p=100p=100p=1000p=1000p=1000nnn 在什么条件下最小范数OLS解决方案不会过拟合?n&lt;pn&lt;pn<p 更新:注释中有些令人难以置信,因此这是使用的可复制示例glmnet。我使用Python,但是R用户可以轻松修改代码。 %matplotlib notebook import numpy …

6
随机森林-如何处理过度拟合
我有计算机科学背景,但是正在尝试通过解决Internet问题来自学数据科学。 在过去的几周里,我一直在研究这个问题(大约900行和10个功能)。我最初使用逻辑回归,但是现在我切换到了随机森林。当我在训练数据上运行随机森林模型时,auc的值非常高(&gt; 99%)。但是,当我在测试数据上运行相同的模型时,结果并不是很好(准确度约为77%)。这使我相信我已经过度适合训练数据了。 关于防止随机森林过度适应的最佳实践是什么? 我正在使用r和rstudio作为开发环境。我正在使用该randomForest软件包,并且已接受所有参数的默认值

4
《科学》杂志是否认可“分叉路径分析花园”?
自适应数据分析的思想是,随着您了解更多有关数据的信息,您将更改其分析计划。对于探索性数据分析(EDA),通常这是一个好主意(您经常在数据中寻找无法预料的模式),但是对于验证性研究,这被广泛认为是一种非常有缺陷的分析方法(除非所有步骤已明确定义,并已预先适当计划)。 话虽这么说,自适应数据分析是典型的许多研究人员实际上如何进行他们的分析,很多统计人员的不舍。这样,如果人们能够以一种统计有效的方式做到这一点,它将彻底改变统计实践。 以下《科学》杂志声称已经找到了一种方法(我对此深表歉意,但如果您在大学里,很可能可以使用):Dwork等人,2015年,可重用的保留:在自适应数据分析中保持有效性。 就我个人而言,我一直对《科学》杂志上发表的统计文章持怀疑态度,这一点也没有什么不同。实际上,在仔细阅读了文章(包括补充材料)两次之后,我根本无法理解(为什么)作者声称他们的方法可以防止过拟合。 我的理解是他们有一个保留数据集,可以重复使用。他们似乎声称通过对验证数据集上的确认分析输出进行“模糊处理”,从而避免了过度拟合(值得注意的是,如果对训练数据的计算统计数据足够模糊,则模糊处理似乎只是在增加噪声。根据对保留数据计算的统计信息)。据我所知,没有真正的理由可以防止过度拟合。 我是否误解了作者的提议?我忽略了一些微妙的影响吗?还是《科学》杂志 认可了迄今为止最糟糕的统计实践?



6
为什么较小的权重会导致正规化模型更简单?
大约一年前,我完成了Andrew Ng的机器学习课程,现在正在写我的高中数学探索性知识,介绍Logistic回归的工作原理和优化性能的技术。这些技术之一当然是正则化。 正则化的目的是通过扩展成本函数以包括模型简化的目标来防止过度拟合。我们可以通过将权重的每一个乘以平方,再乘以一些正则化参数,来对权重的大小进行惩罚,从而实现这一目标。 现在,机器学习算法将旨在减小权重的大小,同时保持训练集的准确性。我们的想法是,我们将到达中间的某个点,在这里我们可以生成一个模型,该模型可以对数据进行泛化,而不会因为复杂度降低而无法适应所有随机噪声。 我的困惑是为什么我们要惩罚砝码的大小?为什么较大的权重创建更复杂的模型,为什么较小的权重创建更简单/平滑的模型?吴安德(Andrew Ng)在他的演讲中声称,这种解释很难讲,但我想我现在正在寻找这种解释。 Ng教授确实给出了一个示例,说明新的成本函数如何使要素的权重(即x ^ 3和x ^ 4)趋于零,从而降低了模型的程度,但这并不能创建一个完整的模型。说明。 我的直觉是,具有较小指数的特征将比具有较小指数的特征更易于接受(因为具有较小权重的特征就像函数的基础一样)。较小的权重意味着对高阶特征的较小“贡献”。但是这种直觉不是很具体。


5
过度拟合的模型一定没有用吗?
假设一个模型对训练数据的准确性为100%,但对测试数据的准确性为70%。关于该模型,以下论点正确吗? 显然,这是一个过拟合模型。通过减少过度拟合可以提高测试精度。但是,此模型仍然可以是有用的模型,因为它对于测试数据具有可接受的准确性。

2
结合PCA和LDA是否有意义?
假设我有一个监督统计分类任务的数据集,例如通过贝叶斯分类器。该数据集包含20个特征,我想通过降维技术将其简化为2个特征,例如主成分分析(PCA)和/或线性判别分析(LDA)。 两种技术都将数据投影到较小的特征子空间上:使用PCA,我将找到使数据集中方差最大化的方向(分量)(不考虑类标签),而使用LDA,我将具有使两者之间的最大化的分量。级分离。 现在,我想知道是否可以,如何以及为什么可以结合使用这些技术,以及是否有意义。 例如: 通过PCA转换数据集并将其投影到新的2D子空间中 通过LDA转换(已经PCA转换的)数据集,最大 班级分离 要么 跳过PCA步骤并使用LDA的前2个组件。 或任何其他有意义的组合。

4
“半监督学习”-过度拟合吗?
我正在阅读Kaggle竞赛获奖解决方案的报告(恶意软件分类)。该报告可在此论坛帖子中找到。问题是分类问题(九个类别,度量标准是对数损失),其中训练集中有10000个元素,测试集中有10000个元素。 在比赛期间,针对30%的测试集对模型进行了评估。另一个重要因素是模型的表现非常出色(准确性接近100%) 作者使用以下技术: 我们提出的另一项重要技术是半监督学习。我们首先通过选择最佳模型的最大概率来生成测试集的伪标签。然后,我们将使用训练数据和测试数据以交叉验证的方式再次预测测试集。例如,将测试数据集分为A,B,C和D四个部分。我们使用整个训练数据,并将测试数据A,B,C及其伪标签一起用作新的训练集,并预测测试设置D。 相同的方法用于预测A,B和C。这是由Xiaozhou发明的,效果出乎意料,并且可以减少局部交叉验证损失,公共LB损失和私人LB损失。最佳的半监督学习模型可以使私人LB对数丢失达到0.0023,这是我们所有解决方案中的最高分。 我真的不知道它如何改善结果。是因为30%的测试集被“泄漏”了,这是使用此信息的一种方式吗? 还是有任何理论上的原因可以解释其原理?

9
过拟合和欠拟合
我已经对过拟合和欠拟合进行了一些研究,并且我了解了它们的确切含义,但是我找不到原因。 过度拟合和拟合不足的主要原因是什么? 为什么我们在训练模型时会面临这两个问题?

1
关于xgboost中的过拟合问题的讨论
我的设置如下: 我正在遵循“应用的预测建模”中的指导原则。因此,我过滤了相关功能并得出以下结果: 训练集中的4900个数据点和测试集中的1600个数据点。 我有26个功能,目标是一个连续变量。 我使用5倍交叉验证来训练使用该caret软件包的模型。当我应用MARS模型时,在训练集和测试集上我得到的平均绝对误差(MAE)约为4。 但是,使用xgboost(树算法或线性算法),在训练集上得到的像是0.32(!),在测试集上得到的像是2.4。 因此,如果测试误差是训练误差的8倍,那么我会说:我已经过度拟合了训练数据。无论如何,我仍然在测试中遇到了一个较小的错误。 我在xgboost上使用以下参数: nrounds = 1000和eta = 0.01(增加nrounds和减少eta可能有所帮助,但我的内存不足并且运行时间太长) max_depth = 16:如果我比较其他帖子和默认帖子6,则看起来很大,但问题非常复杂-在这种情况下,也许16不太大。 colsample_bytree = 0.7,subsample = 0.8并且min_child_weight = 5:这样做,我尝试减少过拟合。 如果我减小max_depth,则训练和测试误差会更接近,但仍然存在较大的差距,并且测试误差会更大(略高于3)。 使用线性助推器,我得到最佳参数的大致相同的训练和测试误差: lambda = 90 和`alpha = 0:通过交叉验证发现,lambda应该防止过拟合。 colsample_bytree = 0.8,subsample = 0.8并且min_child_weight = 5:这样做,我尝试减少过拟合。 我的感觉是xgboost仍然过拟合-但训练错误以及据我在实时测试中看到的(我已经使用过xgboost模型,并且实际上已经将它们集成了4天了)看起来还不错(错误是大于测试误差,但现实生活中有关特征和其他变量的预测存在更多不确定性。 您如何看待:如果(如果可能的话)现实生活中的表现优越,我可以接受过拟合吗?我的设置中的xgboost是否趋于过度拟合?


2
提升:为什么将学习率称为正则化参数?
所述学习率参数(在梯度)推进收缩每个新的基础模型-通常浅树形是在串联加入的贡献。它被证明可以极大地提高测试仪的精度,这是可以理解的,因为步数越小,损耗函数的最小值就可以越精确地达到。 ν∈[0,1]ν∈[0,1]\nu \in [0,1] 我不明白为什么学习率被视为正则化参数?引用统计学习的要素,第10.12.1节,第364页: 控制树的数量不是唯一可能的正则化策略。与山脊回归和神经网络一样,也可以使用收缩技术。值越小 (收缩率越大),对于相同数量的迭代M,导致更大的训练风险。因此,ν和M都控制训练数据的预测风险。νν\nuMMMνν\nuMMM 正则化意味着“避免过度拟合的方式”,因此很明显迭代次数在这方面至关重要(M太大会导致过度拟合)。但:MMMMMM 值越小(收缩率越大),对于相同数量的迭代M,导致更大的训练风险。νν\nuMMM 仅仅意味着在低学习率的情况下,需要更多的迭代才能在训练集上达到相同的准确性。那么,这与过度拟合有何关系?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.