Questions tagged «aic»

AIC代表“赤池信息准则”,这是一种使用受罚可能性从一类模型中选择最佳模型的技术。较小的AIC意味着更好的模型。

3
广义线性混合模型:模型选择
这个问题/主题是在与一位同事的讨论中提出的,我正在就此寻求一些意见: 我正在使用随机效应逻辑回归建模一些数据,更确切地说是随机截距逻辑回归。对于固定效果,我有9个有趣且值得考虑的变量。我想进行某种模型选择,以找到重要的变量并给出“最佳”模型(仅主要效果)。 我的第一个想法是使用AIC比较不同的模型,但是使用9个变量,我比较比较2 ^ 9 = 512个不同的模型(关键字:数据挖掘)并不太令人兴奋。 我与一位同事讨论了这个问题,他告诉我,他记得曾经读过关于对GLMM使用逐步(或向前)模型选择的文章。但是应该使用AIC作为进入/退出标准,而不是使用p值(例如,基于GLMM的似然比检验)。 我发现这个想法非常有趣,但是我没有找到进一步讨论此问题的参考资料,而我的同事不记得他在哪里读过。许多书籍建议使用AIC来比较模型,但是我没有找到关于将其与逐步或向前模型选择过程一起使用的任何讨论。 所以我基本上有两个问题: 在逐步模型选择过程中将AIC用作进入/退出标准有什么问题吗?如果是,那有什么选择? 您是否有参考资料讨论上述过程(也作为最终报告的参考资料? 最好, 艾米利亚

2
REML vs ML stepAIC
在尝试研究如何进行混合模型分析并随后使用AIC选择最佳模型之后,我感到不知所措。我不认为我的数据那么复杂,但是我想确认自己所做的正确,然后就如何继续提供建议。我不确定我应该使用lme还是lmer,然后再使用这两个,如果我应该使用REML或ML。 我有一个选择值,我想知道哪个协变量最能影响该值并允许进行预测。这是一些组合的示例数据和我正在使用的测试代码: ID=as.character(rep(1:5,3)) season=c("s","w","w","s","s","s","s","w","w","w","s","w","s","w","w") time=c("n","d","d","n","d","d","n","n","n","n","n","n","d","d","d") repro=as.character(rep(1:3,5)) risk=runif(15, min=0, max=1.1) comp1=rnorm(15, mean = 0, sd = 1) mydata=data.frame(ID, season, time, repro, risk, comp1) c1.mod1<-lmer(comp1~1+(1|ID),REML=T,data=mydata) c1.mod2<-lmer(comp1~risk+(1|ID),REML=T,data=mydata) c1.mod3<-lmer(comp1~season+(1|ID),REML=T,data=mydata) c1.mod4<-lmer(comp1~repro+(1|ID),REML=T,data=mydata) c1.mod5<-lmer(comp1~time+(1|ID),REML=T,data=mydata) c1.mod6<-lmer(comp1~season+repro+time+(1|ID),REML=T,data=mydata) c1.mod7<-lmer(comp1~risk+season+season*time+(1|ID),REML=T,data=mydata) 我有〜19个模型,这些模型使用各种组合和最多2种交互作用项来探索此数据,但始终以ID为随机效应,而comp1为我的因变量。 Q1。使用哪个?我还是我?有关系吗? 在这两种方法中,我都可以选择使用ML或REML-并且得到了截然不同的答案-使用ML再加上AIC,我最终得到了6个具有相似AIC值的模型,并且模型组合根本没有意义,而REML导致最有可能的两个模型是最好的。但是,在运行REML时,我无法再使用方差分析。 Q2。与ANOVA一起使用,是在ML之上使用ML的主要原因是什么?我不清楚。 我仍然无法运行stepAIC,或者我不知道缩小19种模型的其他方法。 Q3。目前有没有办法使用stepAIC?

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
为什么在时间序列模型中使用信息标准(未调整的
在时间序列模型(例如ARMA-GARCH)中,为了选择模型的适当滞后或阶数,使用了不同的信息标准(例如AIC,BIC,SIC等)。 我的问题很简单,为什么不使用调整后的[R2R2R^2选择合适的模型?我们可以选择导致较高的值的模型[R2R2R^2。因为调整后的[R2R2R^2和信息准则都会对模型中更多数量的回归变量进行惩罚,因此前者惩罚[R2R2R^2而后者则惩罚似然值。

4
解释AIC值
我在逻辑模型中看到的AIC的典型值是数千,至少数百。例如,在http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/上 ,AIC为727.39 虽然总是说AIC仅应用于比较模型,但我想了解特定AIC值的含义。根据公式, 一个我C= - 2 日志(L )+ 2 K一个一世C=-2日志⁡(大号)+2ķAIC= -2 \log(L)+ 2K 其中,L =来自MLE估计器的最大似然,K是参数数量 在上面的示例中,K = 8 因此,用简单的算术: 727.9 = -2*log(L)+ 2*8 Hence, 711.39 = -2*log(L) Hence, log (L)= 711.39/-2 = -355.695 Hence, L = exp(-355.695) = 3.3391E-155 因此,如果我的理解是正确的,这就是通过MLE拟合数据确定的功能的可能性。这似乎真的真的很低。 我在这里想念什么?

1
模型选择中AIC和p值的等效性
在对这个问题的答案的评论中,有人指出在模型选择中使用AIC等于使用p值为0.154。 我在R中进行了尝试,在其中我使用了“向后”子集选择算法来排除完整规范中的变量。首先,依次丢弃具有最高p值的变量,并在所有p值均低于0.154时停止,其次,然后删除该变量,删除该变量会导致AIC最低,直到无法进行改进为止。 原来,当我使用0.154的p值作为阈值时,它们给出的结果大致相同。 这是真的吗?如果是这样,是否有人知道原因或可以参考解释它的来源? PS我不能要求对方发表评论或发表评论,因为刚刚注册。我知道这不是最适合模型选择和推断的方法。


2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.