Questions tagged «overfitting»

建模误差(尤其是抽样误差)代替了变量之间可复制且信息丰富的关系,可改善模型拟合统计量,但可降低简约性,并恶化解释性和预测性有效性。



1
Kaggle的私人排行榜是否可以很好地预测获胜模型的样本外性能?
虽然不能使用私有测试集的结果进一步完善模型,但难道不是基于私有测试集的结果从大量模型中选择模型吗?您是否仅通过该过程就不会过度适合私有测试集? 根据 Bailey et.al的“伪数学和金融欺诈行为:回测过拟合对样本外性能的影响”。从同一数据集上评估的大量模型中选择最佳模型时,“过度拟合”相对容易。Kaggle的私人排行榜不是这样吗? 私有排行榜上表现最佳的模型是将最佳数据推广到样本外数据的模型,其统计依据是什么? 公司是否最终使用了获胜的模型,还是仅仅在私人排行榜上提供“游戏规则”,而公司实际上对讨论问题所产生的见解更感兴趣?

1
在统计学习理论中,是否存在过度拟合测试集的问题?
让我们考虑有关对MNIST数据集进行分类的问题。 根据Yann LeCun的MNIST网页,“ Ciresan等” 使用卷积神经网络在MNIST测试集上获得了0.23%的错误率。 让我们将MNIST训练集表示为,将MNIST测试集表示为,将他们使用获得的最终假设设为,并将它们在MNIST测试集上的错误率设为作为。DtrainDtrainD_{train}DtestDtestD_{test}DtrainDtrainD_{train}h1h1h_{1}h1h1h_{1}Etest(h1)=0.0023Etest(h1)=0.0023E_{test}(h_{1}) = 0.0023 在他们看来,由于是从输入空间中随机采样的测试集,而与无关,因此他们可以坚持认为,最终假设的样本外误差性能为由Hoeffding不等式界定 ,其中。DtestDtestD_{test}h1h1h_{1}Eout(h1)Eout(h1)E_{out}(h_{1})P[|Eout(h1)−Etest(h1)|&lt;ϵ|]≥1−2e2ϵ2NtestP[|Eout(h1)−Etest(h1)|&lt;ϵ|]≥1−2e2ϵ2NtesŤ P[|E_{out}(h_{1}) - E_{test}(h_{1})| < \epsilon|] \geq 1 - 2e^{2\epsilon^{2}N_{test}} ñ牛逼Ë 小号ŧ= | d牛逼Ë 小号ŧ|ñŤËsŤ=|dŤËsŤ|N_{test}=|D_{test}| 换句话说,至少为, Ë Ö ù 吨(ħ 1)≤ Ë 吨ë 小号吨(ħ 1)+ √1 - δ1-δ1-\deltaËØ ü Ť(小时1)≤ Ë牛逼Ë 小号ŧ(小时1)+ 12 N牛逼Ë 小号ŧ升Ñ 2δ---------√ËØüŤ(H1)≤ËŤËsŤ(H1)+12ñŤËsŤ升ñ2δE_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over …

2
处理混合模型中的奇异拟合
假设我们有一个模型 mod &lt;- Y ~ X*Condition + (X*Condition|subject) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects summary(model) Random effects: …

2
Out of Bag Error使得在随机森林中不需要CV吗?
我对随机森林很陌生。过去,我一直将拟合与测试的准确性与拟合与训练的准确性进行比较,以检测是否存在过度拟合。但是我在这里读到: “在随机森林中,不需要交叉验证或单独的测试集即可获得测试集误差的无偏估计。它是在运行期间内部估计的……” 上面的一小段可以在“ 袋外(oob)误差估计”部分找到。这个“袋外错误”概念对我来说是一个全新的概念,令人困惑的是我模型中的OOB错误是35%(或65%的准确度),但是,如果我对我的数据应用交叉验证(只是一个简单的保留)方法),然后将拟合与测试与拟合与训练进行比较,我分别获得65%的准确性和96%的准确性。根据我的经验,这被认为是过拟合,但OOB会保持35%的误差,就像我的拟合与测试误差一样。我过拟合吗?我是否应该甚至使用交叉验证来检查随机森林中的过度拟合? 简而言之,当我的拟合vs训练表明我过度拟合时,我不确定是否应该信任OOB来获得测试集错误的无偏错误!

2
报告随机森林的训练错误有哪些措施?
我目前正在使用randomForestR中的程序包为分类问题拟合随机森林,并且不确定如何报告这些模型的训练错误。 当我使用通过命令获得的预测来计算时,我的训练误差接近0%: predict(model, data=X_train) X_train训练数据在哪里。 在回答一个相关问题时,我读到一个人应该使用袋外(OOB)训练误差作为随机森林的训练误差度量。该数量是通过使用以下命令获得的预测计算得出的: predict(model) 在这种情况下,OOB训练误差非常接近平均10-CV测试误差,即11%。 我想知道: 报告OOB训练错误作为随机森林的训练错误度量通常被接受吗? 传统的训练误差测量值人为地低是真的吗? 如果传统的训练误差度量是人为地降低的,那么我可以比较哪两个度量来检查RF是否过拟合?

2
优化:统计中所有邪恶的根源?
我之前听过以下表达: “优化是统计中所有邪恶的根源”。 例如,该线程的最高答案是在选择模型时过于激进地进行优化的危险而做出该声明。 我的第一个问题是:这句话是否特别应归于任何人?(例如,在统计资料中) 据我了解,该声明涉及过拟合的风险。传统观点认为适当的交叉验证已经可以解决这个问题,但是看起来这个问题还不止于此。 即使遵循严格的交叉验证协议(例如100个嵌套的10倍CV),统计学家和ML实践者也应该警惕过度优化模型吗?如果是这样,我们如何知道何时停止搜索“最佳”模型?

3
如何检测回归模型何时过拟合?
当您正在做某事时,意识到自己在做什么,就会对何时过度拟合模型产生一种感觉。一方面,您可以在模型的“调整后的R平方”中跟踪趋势或劣化。您还可以在主要变量的回归系数的p值中跟踪类似的恶化。 但是,当您阅读其他人的研究并且对他们自己的内部模型开发过程一无所知时,如何清楚地确定模型是否过拟合。

1
训练与测试错误差距及其与过拟合的关系:调解相互矛盾的建议
关于如何处理火车与测试错误的比较,似乎存在相互矛盾的建议,尤其是当两者之间存在差距时。在我看来,似乎有两种流派。我想了解如何调和两者(或了解我在这里缺少的内容)。 思想#1:仅培训和测试集性能之间的差距并不表示过拟合 首先,(在这里也进行了讨论:训练和测试错误比较如何指示过度拟合?),仅火车和测试集之间的差异就不能表明过度拟合的想法。这与我在例如集成树方法方面的实践经验相吻合,在集成方法中,即使在基于交叉验证的超参数调整之后,训练误差和测试误差之间的差距仍会保持较大。但是(无论模型类型如何)只要您不会验证错误,就可以了。至少,这就是想法。 思想#2:当您看到培训和测试性能之间存在差距时:做一些可以防止过度拟合的事情 但是,您会从非常好的来源中看到一些建议,这些建议表明训练误差和测试误差之间的差距表明过度拟合。这是一个示例:Andrew Ng的“深度学习的要点”演讲(精彩演讲)https://www.youtube.com/watch?v=F1ka6a13S9I在大约48:00的时间戳上,他绘制了流程图表示“如果火车设置误差很小,而火车-dev设置误差很大,则应该添加正则化,获取更多数据或更改模型架构” ...这都是您可能要采取的应对过度拟合的措施。 带我去... :我在这里想念什么吗?这是特定于模型的经验法则吗(通常更简单的模型似乎在训练和测试之间的差距较小)?还是仅仅存在两种不同的思想流派?

2
k倍交叉验证如何适合训练/验证/测试集的背景?
我的主要问题是试图了解k倍交叉验证在具有训练/验证/测试集的情况下的适合度(如果完全适合这种情况)。 通常,人们会谈论将数据分为训练,验证和测试集-例如,每幅吴安德(Andrew Ng)课程的比例为60/20/20-验证集用于识别模型训练的最佳参数。 但是,如果希望在数据量相对较小的情况下使用k折交叉验证以希望获得更具代表性的准确性度量,那么在这种60/20/20拆分中,进行k折交叉验证的确切含义是场景? 例如,这是否意味着我们实际上将训练和测试集(数据的80%)组合在一起,并对它们进行k倍交叉验证,以获取我们的准确性指标(通过具有明确的“测试集”有效地丢弃)?如果是这样,我们在生产中使用a)和b)对验证集使用哪种训练模型并确定最佳训练参数?例如,a和b的一个可能答案可能是使用最佳折叠模型。


1
防止在小数据集上过拟合LSTM
我正在对15000条推文进行建模,以使用具有128个隐藏单元的单层LSTM(使用类似于word2vec的表示形式,具有80个维度)来进行情感预测。1个纪元后,我获得了下降精度(38%,随机= 20%)。随着训练准确性的提高,更多的训练使验证准确性开始下降-这是过度拟合的明显标志。 因此,我正在考虑进行正则化的方法。我不希望减少隐藏单元的数量(128个似乎已经有点低了)。我目前以50%的概率使用辍学率,但这可能会增加。优化器是Adam,具有Keras的默认参数(http://keras.io/optimizers/#adam)。 有什么有效的方法可以减少我的数据集对此模型的过度拟合?

3
根据理论,拟合或其他方式选择分布更好吗?
这是一个哲学问题,但是我对其他有更多经验的人如何考虑分配选择感兴趣。在某些情况下,似乎很显然,理论可能最有效(小鼠尾巴的长度可能呈正态分布)。在很多情况下,可能没有理论来描述一组数据,因此,无论原始开发用来描述什么,您都可以使用非常适合您的数据。我可以想象使用其中的一个或另一个会遇到一些陷阱,然后当然存在一个问题,就是如果您真的不知道,也许应该只使用经验分布。 所以我想我真正要问的是:有人是否有一致的方式来处理/思考这个问题?您是否有任何资源可以建议对此进行良好处理?

3
贝叶斯vs MLE,过度拟合问题
他在Bishop的PRML书中说,过度拟合是最大似然估计(MLE)的问题,贝叶斯可以避免这种情况。 但是我认为,过度拟合问题更多地与模型选择有关,而不是与用于参数估计的方法有关。也就是说,假设我有一个数据集,它是通过,现在我可以选择不同的模型来拟合数据并找出哪一个是最好的。所考虑的模型是具有不同阶数的多项式,是阶数1,是阶数2,是阶数9。DDDf(x)=sin(x),x∈[0,1]f(x)=sin(x),x∈[0,1]f(x)=sin(x),\;x\in[0,1]HiHiH_iH1H1H_1H2H2H_2H3H3H_3 现在,我尝试以适应数据与各3款,每个模型都有其paramters,表示为的。DDDwiwiw_iHiHiH_i 使用ML,我将获得模型参数的点估计,并且太简单了,总是会拟合数据,而太复杂了,会拟合数据,只有会很好地拟合数据。wwwH1H1H_1H3H3H_3H2H2H_2 我的问题是 1)模型将使数据过拟合,但我认为这不是ML的问题,而是模型本身的问题。因为将ML用于不会导致过拟合。我对吗?H3H3H_3H1,H2H1,H2H_1,H_2 2)与贝叶斯算法相比,机器学习确实有一些缺点,因为它仅给出模型参数的点估计,并且过于自信。贝叶斯不仅仅依赖于参数的最可能值,而且还依赖于给定观测数据所有可能参数值,对吗?wwwDDD 3)为什么贝叶斯可以避免或减少过度拟合?据我了解,我们可以使用贝叶斯模型进行模型比较,也就是说,给定数据,我们可以找出所考虑的每种模型的边际可能性(或模型证据),然后选择边际可能性最高的模型(对) ?如果是这样,那为什么呢?DDD

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.