Questions tagged «model-selection»

模型选择是判断某个集合中哪个模型效果最好的问题。流行的方法包括,AIC和BIC标准,测试集和交叉验证。在某种程度上,特征选择是模型选择的一个子问题。 R2

2
您希望LARS找到的模型与穷举搜索找到的模型有何不同?
更多信息;假设 您事先知道要选择多少个变量,并且您在LARS过程中设置了复杂度损失,例如要使具有不为0系数的变量恰好有多少, 计算成本不是问题(变量的总数很小,例如50), 所有变量(y,x)都是连续的。 在什么设置下,LARS模型(即LARS拟合中具有非零系数的那些变量的OLS拟合)与系数相同但通过穷举搜索找到的模型(la regsubsets())最大不同? 编辑:我使用的是50个变量和250个观测值,它们的真实系数是从标准高斯得出的,除了10个变量的“真实”系数为0(并且所有特征彼此之间具有很强的相关性)。这些设置显然不好,因为两组所选变量之间的差异很小。这实际上是一个问题,应该模拟哪种类型的数据配置以获得最大的差异。

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

3
计算最佳的预测变量子集以进行线性回归
为了在具有合适的预测变量的多元线性回归中选择预测变量,有哪些方法可以找到预测变量的“最佳”子集而无需明确测试所有个子集?在“应用的生存分析”中,Hosmer&Lemeshow引用了Kuk的方法,但是我找不到原始论文。谁能描述这种方法,或者甚至更好的一种更现代的技术?可以假设正态分布的错误。ppp2p2p2^p
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.