数据科学 overfitting

5

我corr()用原始df 创建了df。该corr()DF出来70×70，这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr()，则表格不适合屏幕，并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗？

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

即使验证损失仍然下降，也可能发生过度拟合吗？

我在Keras中有一个卷积+ LSTM模型，与此类似（参考文献1），我正在用它进行Kaggle竞赛。架构如下所示。我已经在我标记的11000个样本集上进行了训练（两个类别，初始患病率是〜9：1，所以我将1的样本上采样到大约1/1的比例）进行了50个时期的验证，拆分率为20％。有一阵子，但我认为它受到噪音和掉线层的控制。模型看起来像是在进行出色的训练，最终在整个训练集上得分为91％，但是在对测试数据集进行测试时，绝对是垃圾。注意：验证准确性高于训练准确性。这与“典型”过度拟合相反。我的直觉是，考虑到验证的细微差别，该模型仍在设法过于严格地适应输入集而失去概括性。另一个线索是val_acc大于acc，这似乎很可疑。这是最有可能的情况吗？如果这太适合了，那么增加验证间隔会完全缓解吗，还是我会遇到同样的问题，因为平均而言，每个样本仍会看到整个时期的一半？该模型： Layer (type) Output Shape Param # Connected to ==================================================================================================== convolution1d_19 (Convolution1D) (None, None, 64) 8256 convolution1d_input_16[0][0] ____________________________________________________________________________________________________ maxpooling1d_18 (MaxPooling1D) (None, None, 64) 0 convolution1d_19[0][0] ____________________________________________________________________________________________________ batchnormalization_8 (BatchNormal(None, None, 64) 128 maxpooling1d_18[0][0] ____________________________________________________________________________________________________ gaussiannoise_5 (GaussianNoise) (None, None, 64) 0 batchnormalization_8[0][0] ____________________________________________________________________________________________________ lstm_16 (LSTM) (None, …

12 keras cross-validation overfitting

4

如何知道模型已开始过度拟合？

我希望以下摘录能够深入了解我的问题。这些来自http://neuralnetworksanddeeplearning.com/chap3.html 然后学习逐渐放慢。最终，在时代280左右，分类精度几乎停止提高。稍后的时期仅在时期280处的准确性值附近看到小的随机波动。这与之前的图相反，在早期的图中与训练数据相关的成本继续平稳下降。如果仅考虑这一成本，看来我们的模型仍在“变得更好”。但是测试精度结果表明，改进是一种幻想。就像费米不喜欢的模型一样，在280期之后，我们的网络所学的内容不再推广到测试数据。因此，这不是有用的学习。我们说，网络在第280代之后过度拟合或过度训练。我们正在训练一个神经网络，并且成本（在训练数据上）一直下降到第400阶段，但是在280阶段之后分类精度变得固定（除非有一些随机波动），因此我们得出结论，该模型在280阶段之后过度拟合了训练数据。我们可以看到测试数据的成本在直到第15个时期之前一直在提高，但此后它实际上开始变得更糟，即使训练数据的成本在继续提高。这是我们的模型过度拟合的另一个迹象。但是，这构成了一个难题，那就是我们是否应该将第15或280时期视为过度拟合将主导学习的点？从实践的角度来看，我们真正关心的是提高测试数据的分类准确性，而测试数据的成本只不过代表了分类准确性。因此，将时代280视为过度拟合是控制我们神经网络学习的主要途径。与以前相比，将测试数据的分类准确性与培训成本进行对比，我们现在将测试数据的成本与培训成本进行比较。然后，本书继续解释为什么280是过度拟合开始的正确时期。这就是我的问题。我无法解决这个问题。我们要求模型最小化成本，因此成本是它用来衡量自身正确分类强度的度量。如果我们认为280是过度拟合开始的正确时机，我们是否没有以某种方式创建一个偏向模型，尽管该偏向模型虽然可以对特定测试数据进行更好的分类，但是却以较低的置信度做出决策，因此更倾向于偏离从测试数据上显示的结果来看？

12 neural-network overfitting

2

样本外数据过拟合是否具有100％的模型准确性？

我刚刚在认知类.ai上完成了R课程的机器学习，并开始尝试使用随机森林。我已经通过使用R中的“ randomForest”库制作了一个模型。该模型分为好和坏两个类。我知道，当模型过拟合时，其自身训练集中的数据表现良好，而样本外数据则表现不佳。为了训练和测试我的模型，我将完整的数据集混洗并将其分成70％用于训练和30％用于测试。我的问题是：我对测试集所做的预测获得了100％的准确性。这不好吗？看起来真是太好了。目的是根据波形相互识别四个波形。数据集的特征是对具有目标波形的波形进行动态时间规整分析的成本结果。

11 r random-forest prediction overfitting

Questions tagged «overfitting»