Questions tagged «model-selection»

模型选择是判断某个集合中哪个模型效果最好的问题。流行的方法包括,AIC和BIC标准,测试集和交叉验证。在某种程度上,特征选择是模型选择的一个子问题。 R2

1
嵌套交叉验证后如何建立最终模型并调整概率阈值?
首先,为发布一个已经在这里,这里,这里,这里,这里详细讨论过的问题的道歉,并用于重新加热旧主题。我知道@DikranMarsupial已经在帖子和期刊论文中详细介绍了这个主题,但是我仍然感到困惑,从这里的类似帖子数量来看,这仍然是其他人难以理解的事情。我还应该指出,我在这个话题上的矛盾加剧了我的困惑。您还应该知道我本来是物理学家,而不是统计学家,所以我在这方面的专业知识有限。我正在写一篇期刊论文,其中我想使用嵌套的CV来评估最终模型所期望的性能。在我的领域,这是第一个。(我们几乎从不使用任何是我领域中强大的简历的一种形式,但要用神经网络和增强型决策树的研究成果来愉快地抽出论文!)因此,有一个非常透彻和清晰的理解非常重要,这样我就不会搞砸和传播对我的社区来说是一个错误的过程,可能需要多年才能学会!谢谢!关于这个问题... 嵌套交叉验证后如何构建最终模型? 我正在训练一个具有L1和L2正则化的简单glmnet模型。快速,简单和可解释。我执行特征中心,缩放和Box-Cox转换,以使特征分布均值中心,标准化并且有点像高斯型。我在交叉验证中执行此步骤,以防止信息泄漏。纯粹是因为我的硬件速度非常慢,而且我无法使用更多的CPU资源,所以在特征预处理之后,我还会在CV中执行基于过滤器的快速特征选择。我正在使用随机网格搜索来选择alpha和lambda超参数。我知道我不应该通过CV循环获得此估算值。我知道内部CV回路用于模型选择(在这种情况下,是最佳超参数),而外部回路则用于模型评估,即内部CV和外部CV具有两个不同的用途,这些用途常常被错误地混为一谈。(到目前为止,我还好吗?) 现在,我发布的链接建议“考虑交叉验证的方法是估计使用构建模型的方法获得的性能,而不是估计模型的性能”。鉴于此,我应该如何解释嵌套CV过程的结果? 我读过的建议似乎表明以下问题---如果这是错误的,请纠正我:内部CV是允许我选择glmnet模型的最佳alpha和lambda超参数的机制的一部分。如果我完全按照内部CV中所使用的过程(包括超参数调整)并使用整个数据集构建最终模型,则外部CV会告诉我可以从最终模型中获得的估计值。即,超参数调整是“用于构建模型的方法”的一部分。这是正确的吗?因为这使我感到困惑。在其他地方,我已经看到了构建要部署的最终模型的过程涉及使用固定值对整个数据集进行训练使用CV选择的超参数。在此,“用于建立模型的方法”不包括调整。那是什么呢?在某个时候,将选择最佳超参数并将其固定以构建最终模型!哪里?怎么样?如果我的内循环是CV的5倍,而我的外循环是CV的5倍,并且我在内部CV中选择了100个测试点作为随机网格搜索的一部分,那么我实际训练了几次glmnet模型?(100 * 5 * 5)+ 1作为最终版本,还是我不知道还有更多步骤? 基本上,我需要对如何从嵌套CV解释性能估计以及如何构建最终模型进行非常清晰的描述。 我还想知道选择概率阈值的适当程序,以将最终的glmnet模型的概率分数转换为(二进制)类标签---需要另一个CV循环吗?

2
使用相关矩阵选择回归的预测变量是否正确?
几天前,我的一位心理学家和研究员向我介绍了他为线性回归模型选择变量的方法。我猜这不好,但是我需要请其他人确保。方法是: 查看所有变量(包括因变量Y)之间的相关矩阵,并选择与Y最相关的那些预测变量Xs。 他没有提到任何标准。 问:他说的对吗? [我认为这种选择方法是错误的,因为有很多事情,比如说应该选择哪个预测变量,甚至是省略变量偏差(OVB)的理论。]

3
不平衡数据集上的ROC与精确召回曲线
我刚刚阅读完此讨论。他们认为,在不平衡数据集上,PR AUC比ROC AUC更好。 例如,我们在测试数据集中有10个样本。9个样本为阳性,1个样本为阴性。我们有一个糟糕的模型,它预测一切都是积极的。因此,我们将得到一个度量,TP = 9,FP = 1,TN = 0,FN = 0。 然后,Precision = 0.9,Recall = 1.0。精度和召回率都很高,但是分类器很差。 另一方面,TPR = TP /(TP + FN)= 1.0,FPR = FP /(FP + TN)= 1.0。由于FPR很高,我们可以确定这不是一个很好的分类器。 显然,在不平衡数据集上,ROC优于PR。有人可以解释为什么PR更好吗?


1
Kaggle的私人排行榜是否可以很好地预测获胜模型的样本外性能?
虽然不能使用私有测试集的结果进一步完善模型,但难道不是基于私有测试集的结果从大量模型中选择模型吗?您是否仅通过该过程就不会过度适合私有测试集? 根据 Bailey et.al的“伪数学和金融欺诈行为:回测过拟合对样本外性能的影响”。从同一数据集上评估的大量模型中选择最佳模型时,“过度拟合”相对容易。Kaggle的私人排行榜不是这样吗? 私有排行榜上表现最佳的模型是将最佳数据推广到样本外数据的模型,其统计依据是什么? 公司是否最终使用了获胜的模型,还是仅仅在私人排行榜上提供“游戏规则”,而公司实际上对讨论问题所产生的见解更感兴趣?

1
定义ARIMA订单时遇到问题
这是一篇很长的文章,所以希望您能忍受,并请纠正我错的地方。 我的目标是根据3或4周的历史数据生成每日预测。 该数据是变压器线路之一的局部负载的15分钟数据。我在查找季节性ARIMA过程的模型顺序时遇到麻烦。考虑用电时间序列: 原始时间序列http://i.share.pho.to/80d86574_l.png 当将前三周作为子集并进行差分时,将计算以下ACF / PACF图: 子集http://i.share.pho.to/5c165aef_l.png 第一个区别http://i.share.pho.to/b7300cc2_l.png 季节性和第一次差异http://i.share.pho.to/570c5397_l.png 看起来该系列有点固定。但是季节性也可以是每周一次(请参阅季节性差异周和二阶差异[在这里] http://share.pho.to/3owoq,您怎么看?) 一[R 我中号A (p ,1 ,q)(P,1 ,Q )96一种[R一世中号一种(p,1个,q)(P,1个,问)96 ARIMA(p,1,q)(P,1,Q)_{96} 一[R 我中号甲(0 ,1 ,4 )(0 ,1 ,1 )96一种[R一世中号一种(0,1个,4)(0,1个,1个)96 ARIMA(0,1,4)(0,1,1)_{96} Series: x ARIMA(0,1,4)(0,1,1)[96] Coefficients: ma1 ma2 ma3 ma4 sma1 -0.2187 -0.2233 -0.0996 -0.0983 -0.9796 s.e. 0.0231 0.0234 0.0257 0.0251 0.0804 sigma^2 …

7
术语“最佳匹配”和交叉验证中使用的“最佳”的定义是什么?
如果将非线性函数拟合到一组点(假设每个横坐标只有一个纵坐标),则结果可以是: 残差很小的非常复杂的函数 具有大量残差的非常简单的函数 交叉验证通常用于在这两个极端之间找到“最佳”折衷方案。但是“最佳”是什么意思?是“最有可能”吗?您甚至将如何证明最可能的解决方案是什么? 我内心的声音告诉我,简历正在寻找某种最低限度的能源解决方案。这让我想到了熵,我隐约知道它在统计和物理学中都会发生。 在我看来,“最佳”拟合是通过最小化复杂度和误差函数的总和而产生的,即 minimising m where m = c(Complexity) + e(Error) 这有意义吗?函数c和e是什么? 请您能用非数学语言来解释,因为我对数学不太了解。

1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

5
我可以忽略线性模型中非重要因素水平的系数吗?
在这里寻求关于线性模型系数的澄清之后,我有一个关于因子水平系数的非有效值(高p值)的后续问题。 示例:如果我的线性模型包含一个具有10个水平的因子,并且其中只有3个水平具有与之相关的显着p值,那么当使用该模型预测Y时,如果受试者属于以下情况之一,我可以选择不包括系数项:非重要级别? 更彻底地讲,将7个不重要的级别合并为一个级别并重新分析是错误的吗?

2
LASSO / LARS与一般到特定(GETS)方法
我一直在想,为什么LASSO和LARS模型选择方法如此受欢迎,即使它们基本上只是逐步向前选择的变体(并因此受到路径依赖性)? 同样,为什么通用到特定(GETS)方法用于模型选择,尽管它们比LARS / LASSO更好,因为它们没有逐步回归问题,因此为什么大多数该模型被忽略?(关于GETS的基本参考资料:http ://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf-其中的最新算法从避免路径依赖的广泛模型和树搜索开始,并且已经证明可以通常比LASSO / LARS更好。 似乎很奇怪,LARS / LASSO似乎比General to Specific(GETS)获得了更多的曝光和引用,有人对此有何想法? 并非试图引发激烈的辩论,而是寻找合理的解释,以解释为什么文学似乎确实集中在LASSO / LARS而不是GETS上,很少有人指出LASSO / LARS的缺点。

4
比较具有相同自由度数的混合效果模型
我有一个实验,将在这里尝试进行抽象。想象一下,我在您面前扔了三块白色的石头,请您对它们的位置做出判断。我记录了宝石的各种特性以及您的反应。我在许多主题上都这样做。我生成两个模型。一个是离您最近的石头可以预测您的反应,另一个是石头的几何中心可以预测您的反应。因此,在RI中使用lmer可以编写。 mNear <- lmer(resp ~ nearest + (1|subject), REML = FALSE) mCenter <- lmer(resp ~ center + (1|subject), REML = FALSE) 更新和更改-更直接的版本,其中包含一些有用的注释 我可以尝试 anova(mNear, mCenter) 当然,这是不正确的,因为它们不是嵌套的,而且我不能真的那样比较它们。我期望anova.mer引发错误,但没有。但是我可以在这里尝试的嵌套并不是自然的,而且仍然使我缺乏分析性的陈述。当模型自然嵌套(例如线性二次)时,测试只是一种方法。但是在这种情况下,发现不对称意味着什么? 例如,我可以建立一个模型三: mBoth <- lmer(resp ~ center + nearest + (1|subject), REML = FALSE) 然后,我可以进行方差分析。 anova(mCenter, mBoth) anova(mNearest, mBoth) 这样做很公平,现在我发现该中心增加了最近的效果(第二个命令),但当将最近的一个中心添加到中心时,BIC实际上上升了(简化了简约性)。这证实了所怀疑的。 但是找到足够了吗?当中心和最近位置高度相关时,这公平吗? 当不是要添加和减去解释变量(自由度)时,是否有更好的方法来分析比较模型?

3
为KNN选择最佳K
我执行了5倍CV选择KNN的最佳K。似乎K越大,误差越小... 抱歉,我没有图例,但不同的颜色代表不同的尝试。总共有5个,似乎它们之间几乎没有差异。当K变大时,误差似乎总是会减小。那么如何选择最佳K?在这里K = 3会是一个很好的选择,因为在K = 3之后图形会趋于平稳吗?

1
如何从曲线拟合中解释协方差矩阵?
我不太擅长统计,因此很抱歉,这是一个简单的问题。我以曲线拟合的一些数据,有时候我的数据最适合的形式负指数,有时配合是更接近于一个* é (- b * X 2) + c。但是,有时两者都失败了,我想回到线性拟合中。我的问题是,如何根据从模型返回的结果方差-协方差矩阵确定哪种模型最适合特定数据集一个* ê(- b * X )+ c一种∗Ë(-b∗X)+Ca * e^{(-b * x)} + c一个* ê(- b * X2)+ c一种∗Ë(-b∗X2)+Ca * e^{(-b * x^2)} + cscipy.optimize.curve_fit()函数?我相信方差在此矩阵的对角线之一上,但我不确定如何解释。 更新:基于类似的问题,我希望方差-协方差矩阵可以告诉我我正在尝试的三个模型中的哪个最适合数据(我正在尝试将许多数据集适合这三个模型之一)。 对于给定的示例,结果矩阵如下所示: pcov_lin [[ 2.02186921e-05 -2.02186920e-04] [ -2.02186920e-04 2.76322124e-03]] pcov_exp [[ 9.05390292e+00 -7.76201283e-02 -9.20475334e+00] [ -7.76201283e-02 6.69727245e-04 7.90218415e-02] …

4
套索的最佳罚分选择
是否有关于任何分析结果或实验论文最优的系数的选择罚项。通过优化,我的意思是最大化选择最佳模式,或最大限度地减少预期损失的概率相关的参数。我之所以问是因为,由于问题的实例很多,或者由于手头的问题的大小,通过交叉验证或引导程序选择参数通常是不切实际的。唯一积极的结果,我所知道的是Candes和计划,通过近理想模型选择ℓ 1的最小化。ℓ1ℓ1\ell_1ℓ1ℓ1\ell_1

1
洛格洛斯vs基尼/奥克
我已经训练了两个模型(使用h2o AutoML的二进制分类器),我想选择一个模型。我得到以下结果: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 的auc和logloss列是交叉验证指标(交叉验证仅使用训练数据)。在..._train和..._valid指标分别由通过模型运行训练和验证指标发现。我想使用logloss_valid或gini_valid选择最佳模型。 模型1具有更好的基尼系数(即更好的AUC),而模型2具有更好的对数损失。我的问题是选择哪一个我认为是问题,使用基尼(AUC)或对数损失作为决策指标的优点/缺点是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.