Questions tagged «overfitting»

建模误差(尤其是抽样误差)代替了变量之间可复制且信息丰富的关系,可改善模型拟合统计量,但可降低简约性,并恶化解释性和预测性有效性。

2
一个人(理论上)可以用比权重更少的训练样本来训练神经网络吗?
首先:我知道,训练神经网络不需要一般数量的样本。它取决于太多的因素,例如任务的复杂性,数据中的噪音等。而且我拥有的培训样本越多,我的人际网络就会越好。 但是我想知道:如果我假设我的任务足够“简单”,那么在理论上可以用比权重更少的训练样本来训练神经网络吗?有人知道这样做的例子吗?还是该网络几乎肯定会表现不佳? 例如,如果我考虑多项式回归,则无法仅在4个数据点上拟合4级多项式(即具有5个自由参数)。考虑我的权重数量作为自由参数的数量,神经网络是否有类似的规则?

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

1
如何在不过度拟合数据的情况下选择最佳拟合?使用N个正态函数等对双峰分布进行建模
我有一个明显的双峰值分布,我试图适应这一分布。可以使用2个正常函数(双峰)或3个正常函数很好地拟合数据。此外,将数据拟合为3还有一个合理的物理原因。 引入的参数越多,拟合就越完美,因为有了足够的常数,一个人就可以“ 拟合大象 ”。 这是分布,与3条正态(高斯)曲线的总和拟合: 这些是每次拟合的数据。我不确定应该在这里应用哪种测试来确定合适的位置。数据由91点组成。 1正常功能: RSS:1.06231 X ^ 2:3.1674 F.测试:0.3092 2个正常功能: RSS:0.010939 X ^ 2:0.053896 F.测试:0.97101 3种正常功能: RSS:0.00536 X ^ 2:0.02794 F.测试:0.99249 什么是可以用来确定这3个拟合中的哪一个最合适的正确统计检验?显然,1个法线函数拟合不足。那么如何区分2和3? 另外,我主要使用Excel和一些Python来完成此操作;我还不熟悉R或其他统计语言。

4
线性分类器过度拟合
今天,我们的教授在课堂上说:“不可能过度拟合线性分类器”。我认为这是错误的,因为即使线性分类器也可能对训练集中的离群值敏感-以硬边距支持向量机为例:一个嘈杂的数据点可以更改将使用哪个超平面来分离数据集。还是我错了?显然,由于模型复杂度较低,线性可能会防止过度拟合,但我仍然不明白为什么过度拟合是不可能的。还有一点是,当我试图考虑这个问题时,我意识到“过拟合”似乎没有被正式定义。这是为什么?训练和测试集性能之间的某种距离度量是否可以使这种形式化?谢谢

1
使用随机森林进行建模是否需要交叉验证?
据我所见,人们对此的看法往往有所不同。最佳实践肯定会规定使用交叉验证(尤其是将RF与同一数据集上的其他算法进行比较时)。另一方面,原始消息来源指出,在模型训练期间计算出OOB误差这一事实足以说明测试集的性能。甚至特雷弗·哈斯提(Trevor Hastie)在最近的一次对话中都说“随机森林提供免费的交叉验证”。直观上,如果在一个数据集上训练并尝试改进基于RF的模型,这对我来说很有意义。 您对此有何看法?


2
对岭回归中“矩阵求逆的数值稳定性”的清晰解释及其在减少过拟合中的作用
我知道我们可以在最小二乘回归问题中采用正则化 w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] 并且这个问题有一个封闭形式的解决方案,如: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. 我们看到在第二个方程中,正则化只是在\ boldsymbol {X} ^ T \ boldsymbol {X}的对角线上添加了\ lambda,这样做是为了提高矩阵求逆的数值稳定性。λλ\lambdaXTXXTX\boldsymbol{X}^T\boldsymbol{X} 我目前对数值稳定性的“粗略”理解是,如果函数变得更加“数值稳定”,则其输出受输入噪声的影响较小。我很难将提高数值稳定性的概念与如何避免/减少过度拟合的问题联系在一起。 我曾尝试查看Wikipedia和其他一些大学网站,但他们没有深入解释为什么会这样。



2
模型构建过程是交互式的时进行回测或交叉验证
我有一些预测模型,我想对其性能进行回测(即,获取我的数据集,将其“倒带”到上一个时间点,并查看该模型的预期性能)。 问题是我的某些模型是通过交互过程构建的。例如,按照弗兰克·哈雷尔(Frank Harrell)的回归建模策略中的建议,在一个模型中,我使用了受限制的三次样条来处理特征与响应之间可能的非线性关联。我根据领域知识和关联强度的单变量度量来分配每个样条的自由度。但是,我要允许模型的自由度显然取决于数据集的大小,在进行回测时,数据集的变化很大。如果我不想在每次对模型进行回测时都分别手动选择自由度,那么我还有其他选择吗? 再例如,我目前正在通过发现具有高杠杆作用的点来进行离群值检测。如果我愿意手工进行此操作,则只需查看每个高杠杆数据点,仔细检查数据是否干净,然后过滤掉或手工清理。但这依赖于很多领域知识,因此我不知道如何使过程自动化。 我将不胜感激建议和解决方案,无论是(a)解决模型构建过程中交互部分自动化的一般问题,还是(b)针对这两种情况的具体建议。谢谢!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.