Questions tagged «validation»

评估分析结果是否可能超出原始研究范围的过程。请勿使用此标签来讨论测量或仪器的“有效性”(例如,它测量其声称的内容),而应使用[validity]标签。

1
洛格洛斯vs基尼/奥克
我已经训练了两个模型(使用h2o AutoML的二进制分类器),我想选择一个模型。我得到以下结果: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 的auc和logloss列是交叉验证指标(交叉验证仅使用训练数据)。在..._train和..._valid指标分别由通过模型运行训练和验证指标发现。我想使用logloss_valid或gini_valid选择最佳模型。 模型1具有更好的基尼系数(即更好的AUC),而模型2具有更好的对数损失。我的问题是选择哪一个我认为是问题,使用基尼(AUC)或对数损失作为决策指标的优点/缺点是什么?

1
当使用单独的建模/验证集构建回归模型时,“重新分发”验证数据是否合适?
假设我在建模/验证观察之间划分为80/20。我已经将模型拟合到建模数据集,并且对在验证数据集上看到的错误感到满意。在推出模型以对未来观察进行评分之前,是否将验证与建模数据结合起来以获取100%数据的更新参数估计值是否合适?我听说过两种观点: 我执行的验证是对模型结构的验证,即我已应用的一组预测变量和转换。当我可以使用它来更新估算值时,将20%的数据留在表上是没有意义的。 我执行的验证部分是对我在建模数据集上计算出的参数估计值的验证。如果我更新模型拟合度,那么我已经更改了估计值,并且不再具有测试更新模型性能的客观方法。 我一直遵循#1的论点,但最近我听到几个人争论#2。我想看看其他人对此有何看法。您是否在文献中或其他地方看到过有关该主题的精彩讨论?


1
平均绝对误差的名称类似于Brier分数?
昨天的问题是确定模型的准确性,该模型估计事件的概率使我对概率评分感到好奇。 的石南木得分 是均方误差度量。类似的平均绝对错误性能是否测量 也有名字吗1N∑i=1N(predictioni−referencei)21N∑i=1N(predictioni−referencei)2\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i - reference_i)^2 1N∑i=1N|predictioni−referencei|1N∑i=1N|predictioni−referencei|\frac{1}{N}\sum\limits _{i=1}^{N}|prediction_i - reference_i|

3
将时间序列数据拆分为训练/测试/验证集
将时间序列数据拆分为训练/测试/验证集的最佳方法是什么,其中验证集将用于超参数调整? 我们拥有3年的每日销售数据,我们的计划是将2015-2016年用作培训数据,然后从2017年数据中随机抽取10周作为验证集,并从2017年数据中随机抽取10周作为测试集。然后,我们将在测试和验证集中的每一天向前走。

2
错误率是正则化参数lambda的凸函数吗?
在Ridge或Lasso中选择正则化参数lambda时,建议的方法是尝试使用不同的lambda值,测量验证集中的错误,最后选择返回最低错误的lambda值。 如果函数f(lambda)= error是凸的,这对我来说并不束手无策。会是这样吗?即,该曲线是否可以具有多个局部最小值(这意味着在lambda的某个区域中找到Error的最小值并不排除在某些其他区域中存在返回较小的Error的Lambda的可能性) 您的建议将不胜感激。

1
用于集群验证的信息(VI)指标变化背后的直觉是什么?
对于像我这样的非统计学家来说,VI即使阅读了Marina Melia的相关论文“ Comparing clusters-an based based distance ”(多变量分析杂志,2007年),也很难把握度量(信息的变化)的概念。实际上,我不熟悉许多集群的术语。 以下是MWE,我想知道在使用的不同指标中输出的含义。我在R中具有这两个群集,并且具有相同的id顺序: > dput(a) structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, …

1
面板/纵向数据的预测评估指标
我想评估几种不同的模型,这些模型可以每月提供行为预测。数据是平衡的, 100,000, 12。结果是在给定的月份参加音乐会,因此在任何月份中〜80%的人都为零,但是用户量很大,右尾长长。我的预测似乎并不尊重结果的计数性质:小规模音乐会很普遍。T =n=n=n=T=T=T= 我对模型一无所知。我每个人每个月只观察6种不同的黑匣子预测。我确实有额外的一年数据,模型制作者没有估算的数据(尽管一致参加者保持不变),我想评估每个数据在哪里表现良好(就准确性和准确性而言)。例如,某些模型对经常参加音乐会的人是否有很好的预测,但对沙发土豆却没有用?一月份的预测好于十二月的预测吗?另外,很高兴知道这些预测使我能够根据实际情况对人进行正确排名,即使无法相信确切的幅度。y^1,...,y^6y^1,...,y^6\hat y_1,...,\hat y_6 我的第一个想法是对预测的和时间的虚拟变量进行实际的固定效应回归,并查看每个模型的RMSE或。但这不能回答有关每个模型在哪里运行良好或差异是否显着的问题(除非我引导RMSE)。结果的分布也让我担心这种方法。R2R2R^2 我的第二个想法是将结果分为0、1-3和3+,然后计算混淆矩阵,但这会忽略时间维度,除非我将其设为12。这也很粗糙。 我知道concordTJ Steichen和NJ Cox所提供的Stata命令,它们可以by()选择,但是这需要将数据压缩到年度总数中。这将在其他有用的统计数据中,使用置信区间计算Lin的Concordance相关指数。CCC的范围是-1至1,完美的一致性为1。 还有Harrell的(由R. Newson 计算 ),可以选择,但是我不确定这是否允许我处理面板数据。这为您提供了置信区间。Harrell c是连续结果的ROC曲线(AUC)下面积的概括。它是可以排序的所有对的比例,以使具有较高预测值的对象实际上具有较高的结局。因此,对于随机预测,,对于完全区分的模型,。参见哈雷尔的书,第493页c = 0.5 c = 1cccsomersdclusterc=0.5c=0.5c=0.5c=1c=1c=1 您将如何解决这个问题?您是否建议计算预测中常见的统计数据(如MAPE)? 到目前为止发现的有用的东西: 幻灯片上的林的一致性相关系数的重复测量版本

3
什么是一致性检查?
有人问我“您是否在日常工作中进行了一致性检查?”这样的问题。在电话采访生物统计学家的职位时。我不知道该怎么回答。任何信息表示赞赏。
11 validation 


2
乐观偏差-预测误差的估计
《统计学习的元素》(在线提供PDF版本)讨论了最佳偏差(7.21,第229页)。它指出,乐观偏差是训练误差与样本误差(如果我们在每个原始训练点采样新的结果值时观察到的误差)之间的差(见下)。 接下来,它声明这种乐观偏差()等于我们的估计y值与实际y值的协方差(公式如下)。我很难理解为什么这个公式表示乐观偏见。天真的,我会认为实际与预测之间的强协方差仅描述准确性,而不是乐观。让我知道是否有人可以帮助您推导公式或分享直觉。 ωω\omegayyyyyy

4
计算用于模型拟合/训练和验证的样本数据的比率
提供了我计划用来预测数据的样本量“ N”。有哪些方法可以细分数据,以便我使用其中的一些数据来建立模型,而其余数据可以用来验证模型? 我知道对此没有黑白答案,但是了解一些“经验法则”或通常使用的比率将很有趣。我知道在大学时,我们的一位教授曾经说过要在60%的情况下建模并在40%的情况下进行验证。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.