Questions tagged «cross-validation»

在模型拟合期间反复保留数据的子集,以便量化保留的数据子集上的模型性能。

2
Keras:为什么损失减少而val_loss增加?
我为一组参数设置了网格搜索。我正在尝试为进行二进制分类的Keras神经网络找到最佳参数。输出为1或0。大约有200个要素。当我进行网格搜索时,我得到了一堆模型及其参数。最佳模型具有以下参数: Epochs : 20 Batch Size : 10 First Activation : sigmoid Learning Rate : 1 First Init : uniform 该模型的结果是: loss acc val_loss val_acc 1 0.477424 0.768542 0.719960 0.722550 2 0.444588 0.788861 0.708650 0.732130 3 0.435809 0.794336 0.695768 0.732682 4 0.427056 0.798784 0.684516 0.721137 5 0.420828 0.803048 0.703748 0.720707 …


2
如何对PCA执行交叉验证以确定主成分的数量?
我正在尝试编写自己的用于主成分分析的函数PCA(当然已经编写了很多东西,但我只是想自己实现一些东西)。我遇到的主要问题是交叉验证步骤和计算预测的平方和(PRESS)。我使用哪种交叉验证都没有关系,这主要是关于背后的理论的问题,但请考虑留一法交叉验证(LOOCV)。从理论上我发现,要执行LOOCV,您需要: 删除对象 扩展其余部分 使用一些组件执行PCA 根据(2)中获得的参数缩放删除的对象 根据PCA模型预测对象 计算该对象的压力 对其他对象重新执行相同的算法 汇总所有PRESS值 利润 因为我是该领域的新手,所以为了确定我是对的,我将结果与我所拥有的某些软件的输出进行比较(同样为了编写一些代码,我遵循该软件中的说明进行操作)。计算残差平方和,我得到完全相同的结果,但是计算PRESS是个问题。[R2[R2R^2 您能否告诉我在交叉验证步骤中实施的方法是否正确: case 'loocv' % # n - number of objects % # p - number of variables % # vComponents - the number of components used in CV dataSets = divideData(n,n); % # it is just a variable responsible …

3
将时间序列数据拆分为训练/测试/验证集
将时间序列数据拆分为训练/测试/验证集的最佳方法是什么,其中验证集将用于超参数调整? 我们拥有3年的每日销售数据,我们的计划是将2015-2016年用作培训数据,然后从2017年数据中随机抽取10周作为验证集,并从2017年数据中随机抽取10周作为测试集。然后,我们将在测试和验证集中的每一天向前走。

2
glmnet包中的偏差度量的确切定义,是否具有交叉验证?
对于当前的研究,我通过二项式因变量通过R中的glmnet包使用Lasso方法。 在glmnet中,可以通过交叉验证找到最佳的lambda,并将生成的模型与各种度量进行比较,例如分类错误或偏差。 我的问题:glmnet中的偏差有多准确?如何计算? (在Friedman等人的相应论文“通过坐标下降的广义线性模型的正则化路径”中,我仅对cv.glmnet中使用的偏差发现了这一评论:“平均偏差(减去左侧的对数似然的两倍数据)”(第17页))。

2
错误率是正则化参数lambda的凸函数吗?
在Ridge或Lasso中选择正则化参数lambda时,建议的方法是尝试使用不同的lambda值,测量验证集中的错误,最后选择返回最低错误的lambda值。 如果函数f(lambda)= error是凸的,这对我来说并不束手无策。会是这样吗?即,该曲线是否可以具有多个局部最小值(这意味着在lambda的某个区域中找到Error的最小值并不排除在某些其他区域中存在返回较小的Error的Lambda的可能性) 您的建议将不胜感激。

2
将数据分为测试和训练集纯粹是一种“统计”事情吗?
我是一名学习机器学习/数据科学的物理专业学生,所以我并不是要这个问题引起任何冲突:)但是,任何物理本科课程的很大一部分都是做实验室/实验,这意味着很多数据处理和统计分析。但是,我注意到物理学家处理数据的方式与我的数据科学/统计学习书籍处理数据的方式之间存在巨大差异。 关键区别在于,当尝试对从物理实验获得的数据进行回归时,将回归算法应用于WHOLE数据集,因此绝对不会拆分为训练集和测试集。在物理学世界中,基于整个数据集为模型计算R ^ 2或某种类型的伪R ^ 2。在统计世界中,几乎总是将数据分为80-20、70-30等...,然后根据测试数据集对模型进行评估。 还有一些重大的物理实验(ATLAS,BICEP2等)从未进行过数据拆分,所以我想知道为什么物理学家/实验学家进行统计的方式与数据科学家的方式之间存在如此严格的差异做统计。

4
创建保留集的更合适方法是:删除某些主题或从每个主题中删除一些观测值?
我有一个包含26个要素和31000行的数据集。它是38个主题的数据集。它用于生物识别系统。因此,我希望能够确定主题。 为了进行测试,我知道必须删除一些值。 那么,什么更好呢?为什么呢? (a)保留30个科目作为训练集,并删除8个科目作为测试集 (b)保留38个主题,但删除每个主题的一些行。因此,最后我将得到一个训练集:24800行38个主题,以及一个测试集:6200行38个主题

1
为什么选择K会降低我的交叉验证分数?
在使用scikit-learn中的Boston Housing数据集和RandomForestRegressor(带有默认参数)时,我注意到了一些奇怪的事情:随着将折叠数增加到10以上,交叉验证平均得分降低了。我的交叉验证策略如下: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... num_cvs变化多端。我设置test_size为1/num_cvs镜像k倍CV的训练/测试拆分大小行为。基本上,我想要类似k-fold CV的东西,但是我也需要随机性(因此ShuffleSplit)。 将该试验重复几次,然后绘制平均得分和标准差。 (请注意,的大小k由圆的面积表示;标准偏差在Y轴上。) 一致地,增加k(从2到44)会导致得分短暂增加,然后k随着进一步增加(超过10倍)而稳步下降!如果有的话,我希望更多的培训数据会导致分数略有提高! 更新资料 更改评分标准以表示绝对错误会导致我预期的行为:评分会随着K折CV中的折叠数增加而提高,而不是接近0(默认值为' r2 ')。问题仍然是,为什么默认得分指标导致均值和STD指标的性能下降,而折叠次数却越来越多。

2
复杂调查数据中LASSO之后的交叉验证
我正在尝试使用具有连续结果的LASSO对一些候选预测变量进行模型选择。目标是选择具有最佳预测性能的最佳模型,通常可以从LASSO获得调整参数的求解路径后,通过K倍交叉验证来完成。这里的问题是数据来自复杂的多阶段调查设计(NHANES),并进行了聚类采样和分层。估计部分并不难,因为glmnetR中可以获取采样权重。但是交叉验证部分对我而言不太清楚,因为现在不再观察到观测值了,该程序如何解释代表有限总体的权重采样? 所以我的问题是: 1)如何对复杂的调查数据进行K折交叉验证以选择最佳调整参数?更具体地说,如何将样本数据适当地划分为训练集和验证集?以及如何定义预测误差的估计? 2)是否有选择最佳调整参数的替代方法?

3
交叉验证分类准确性的置信区间
我正在研究一个分类问题,该问题计算两个输入X射线图像之间的相似性度量。如果图像属于同一个人(标签为“正确”),则将计算更高的度量;两个不同人的输入图像(标签为“错误”)将导致较低的指标。 我使用分层的10倍交叉验证来计算错误分类的概率。我当前的样本大小约为40个正确匹配和80个错误匹配,其中每个数据点都是计算得出的指标。我得到的误分类概率为0.00,但是我需要对此进行某种置信区间/错误分析。 我正在研究使用二项式比例置信区间(在此情况下,将交叉验证的结果用作成功次数的正确标记或错误标记)。但是,二项式分析背后的假设之一是每个试验的成功概率相同,并且我不确定交叉验证中“正确”或“错误”分类背后的方法是否可以认为具有成功几率相同。 我能想到的唯一其他分析是重复进行交叉验证X次并计算分类误差的均值/标准差,但是我不确定这是否合适,因为我会重复使用我的数据相对较小的样本数倍。 有什么想法吗?我正在使用MATLAB进行所有分析,并且确实有“统计”工具箱。非常感谢您的协助!

1
使用交叉验证时平均精度和召回率
我已经使用多个分类器对2类标签数据进行了分类,并且使用了5倍交叉验证。对于每一次折叠,我都计算了tp,tn,fp和fn。然后,我计算了每个测试的准确性,准确性,召回率和F分数。我的问题是,当我想对结果进行平均时,我对精度进行了平均,但我是否也可以对精度,查全率和F评分进行平均?还是这在数学上是错误的?PS在每个类中使用的数据集在每个类的实例数方面都非常均衡。 谢谢。



1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.