Questions tagged «cross-validation»

在模型拟合期间反复保留数据的子集,以便量化保留的数据子集上的模型性能。

2
在为支持向量机选择学习参数的背景下,如何适当地应用交叉验证?
出色的libsvm软件包提供了python接口和文件“ easy.py”,该文件可自动搜索学习参数(cost和gamma),以最大程度地提高分类器的准确性。在给定的一组候选学习参数中,可以通过交叉验证来实现准确性,但是我觉得这破坏了交叉验证的目的。也就是说,就学习参数本身而言,可能会导致数据过度拟合的方式选择,我觉得更合适的方法是在搜索本身的级别上应用交叉验证:执行搜索在训练数据集上进行评估,然后通过在单独的测试数据集中进行评估来评估由最终选择的学习参数得出的SVM的最终准确性。还是我在这里想念什么?

1
我应该重新整理我的数据吗?
我们有一套生物学样品,价格昂贵。我们对这些样本进行了一系列测试,以生成用于构建预测模型的数据。为此,我们将样本分为训练(70%)和测试(30%)组。我们已经成功创建了一个模型,并将其应用于测试集,以发现性能“未达到最佳”。实验人员现在希望改善生物学测试,以创建更好的模型。假设我们无法获得新的样本,您是否建议我们重新整理样本以创建新的训练和验证集或坚持原来的划分。(我们没有任何迹象表明该部门存在问题)。

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
交叉验证实施是否会影响其结果?
如您所知,交叉验证有两种流行的类型,即K折和随机子采样(如Wikipedia中所述)。尽管如此,我知道有些研究人员正在撰写和发表论文,其中描述为K折的简历确实是随机的二次抽样,因此在实践中,您永远不知道所读文章的真实含义。 通常,差异当然并不明显,因此我的问题也是如此-当一种类型的结果与另一种类型的结果显着不同时,您能想到一个例子吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.