我已经安装好模型,并试图了解它是否有好处。我已经计算出推荐的指标进行评估( / AUC /准确性/预测误差等),但不知道如何解释它们。简而言之,如何根据指标判断我的模型是否良好?例如,为0.6是否足以让我继续进行推断或做出科学/商业决策?
这个问题是有意的,涵盖了会员经常遇到的各种情况;这样的问题可以作为此问题的副本来解决。欢迎进行修改以扩大范围,使其超出此处提到的指标,还有其他答案-尤其是那些提供有关其他类别指标的见解的答案。
我已经安装好模型,并试图了解它是否有好处。我已经计算出推荐的指标进行评估( / AUC /准确性/预测误差等),但不知道如何解释它们。简而言之,如何根据指标判断我的模型是否良好?例如,为0.6是否足以让我继续进行推断或做出科学/商业决策?
这个问题是有意的,涵盖了会员经常遇到的各种情况;这样的问题可以作为此问题的副本来解决。欢迎进行修改以扩大范围,使其超出此处提到的指标,还有其他答案-尤其是那些提供有关其他类别指标的见解的答案。
Answers:
CrossValidated的读者几乎肯定无法为您很好地回答这个问题。没有确定上下文条件的方法来确定模型指标(例如是否良好。在极端情况下,通常可以从各种各样的专家那里达成共识:通常接近1表示一个好的模型,而接近0则表明一个糟糕的模型。介于两者之间的范围是评估本质上是主观的。在此范围内,不仅需要统计专业知识来回答您的模型指标是否良好。它需要您所在领域的其他专业知识,而CrossValidated读者可能没有。
为什么是这样?让我以我的经验为例进行说明(较小的细节已更改)。
我曾经做过微生物实验室实验。我将在不同浓度的营养水平下放置细胞烧瓶,并测量细胞密度的增长(即细胞密度相对于时间的斜率,尽管这一细节并不重要)。然后,当我对这种生长/养分关系进行建模时,通常会获得> 0.90的值。
我现在是一名环境科学家。我使用包含来自自然的测量值的数据集。如果我尝试将上述完全相同的模型拟合到这些“字段”数据集,则如果高达0.4 ,我会感到惊讶。
这两种情况涉及完全相同的参数,非常相似的测量方法,使用相同的过程编写和拟合的模型-甚至是由同一个人进行拟合!但是在一种情况下,为0.7会令人担忧地低,而在另一种情况下,会令人怀疑地高。
此外,我们还将进行一些化学测量以及生物学测量。化学标准曲线的模型的约为0.99,而0.90的值将非常低。
是什么导致这些期望的巨大差异?上下文。这个模糊的术语涵盖了广阔的领域,所以让我尝试将其分为一些更具体的因素(这可能是不完整的):
1.收益/后果/应用是什么?
这是您所在领域的性质可能最重要的地方。无论我认为我的工作多么有价值,将我的模型 s提高0.1或0.2都不会改变世界。但是在某些应用中,变化的幅度将是巨大的!股票预测模型的小得多的改进对开发它的公司可能意味着数千万美元。
对于分类器来说,这甚至更容易说明,因此在下面的示例中,我将把对度量的讨论从切换到准确性(暂时忽略准确性度量的弱点)。想一想鸡性别的奇怪而有利可图的世界。经过多年的训练,当一只小母鸡刚出生1天时,他们就能迅速分辨出它们的区别。雄性和雌性的饲喂方式不同,以优化肉和蛋的生产,因此高精度可节省数十亿美元的误分配投资的鸟。直到几十年前,在美国,大约85%的精度被认为是很高的。如今,获得最高精度的价值约为99%?薪水显然可以高达每年60,000到180,000美元(基于快速搜寻)。由于人类的工作速度仍然受到限制,因此机器学习算法可以达到类似的准确度,但可以更快地进行分类,因此可能价值数百万美元。
(我希望您喜欢这个例子-替代方法是令人沮丧的关于对恐怖分子的算法识别非常令人沮丧的方法)。
2.未建模因素对您系统的影响有多大?
在许多实验中,您都可以将系统与可能影响系统的所有其他因素隔离开来(毕竟这部分是实验的目标)。大自然更加混乱。继续以先前的微生物学为例:当营养物质可用时,细胞就会生长,但其他因素也会影响它们-它有多热,有多少食肉动物吃它们,水中是否有毒素。所有这些人都与营养物质并以复杂的方式相互转化。其他每个因素都会导致模型无法捕获的数据发生变化。营养元素相对于其他因素可能对驱动变化不重要,因此如果我排除其他因素,我的田间数据模型必然会具有较低的。
3.您的测量有多精确?
测量细胞和化学物质的浓度可以非常精确和准确。基于趋势推特标签来衡量(例如)社区的情绪状态可能……并非如此。如果您无法精确地进行测量,则您的模型不太可能达到较高的。您所在领域的测量精度如何?我们可能不知道。
4.模型的复杂性和概括性
如果您向模型添加更多因素,甚至是随机因素,平均而言,您将平均增加模型(调整后的部分解决了此问题)。这太适合了。过拟合模型不能很好地推广到新数据,即基于对原始(训练)数据集的拟合,预测误差将比预期的误差高。这是因为它已适合原始数据集中的噪声。这部分是为什么对模型选择过程中的复杂性进行惩罚或对模型进行正则化的原因。
如果忽略了过度拟合或未能成功防止过度拟合,则估计的将向上偏移,即高于应有的水平。换句话说,如果值过拟合,则会给您对模型性能的误导性印象。
海事组织,过度拟合在许多领域都令人惊讶。如何最好地避免这种情况是一个复杂的话题,如果对此感兴趣,我建议在此站点上阅读有关正则化过程和模型选择的信息。
5.数据范围和外推
您的数据集是否扩展了您感兴趣的X值范围的很大一部分?在现有数据范围之外添加新数据点可能会对估计的产生很大影响,因为这是基于X和Y的方差的度量。
除此之外,如果您将模型拟合到数据集并需要预测该数据集的X范围之外的值(即Extrapolate),则可能会发现其性能低于预期。这是因为您估计的关系可能会在您拟合的数据范围之外发生变化。在下图中,如果仅在绿色框指示的范围内进行测量,您可能会想象一条直线(红色)很好地描述了数据。但是,如果您尝试用该红线预测该范围之外的值,那将是非常不正确的。
[上图是一个已编辑版本这一个,经由快速谷歌搜索关于“莫诺曲线”找到。]
6.指标只会给你一张图
这并不是对指标的真正批评-它们是汇总,这意味着它们也有意丢弃信息。但这确实意味着任何单一度量标准都会遗漏对其解释至关重要的信息。良好的分析不仅仅考虑单个指标。
欢迎提出建议,更正和其他反馈。当然还有其他答案。
在评估模型如何根据降雨和气候数据预测河流流量时,在我的水文学领域就出现了这个问题。一些研究人员(Chiew和McMahon,1993年)对93位水文学家进行了调查(63位回答),以找出他们所使用的诊断图和拟合优度的优缺点,其中最重要的,以及如何将其用于模型拟合质量的分类。结果现已过时,但该方法可能仍然令人感兴趣。他们介绍了各种质量的模型拟合结果,并要求水文学家将其分为4类(1)完全可以接受的结果;(2)可以接受,但要保留使用;(3)不可接受,仅在没有其他选择的情况下使用;(4)切勿在任何情况下使用。
最重要的诊断图是来自用于校准的数据的模拟流量和记录流量的时间序列图和散点图。R平方和Nash-Sutcliffe模型效率系数(E)是拟合统计量的首选优度。例如,如果E => 0.8,则认为结果可接受
文献中还有其他例子。在评估北海的生态系统模型时,使用以下分类法:E> 0.65优秀,0.5至0.65很好,0.2至0.5很好,<0.2较差(Allen等,2007)。
Moriasi等人(2015年)提供了各种模型指标的可接受值表。
我已经在博客文章中总结了这些信息和参考。
Allen,J.,P。Somerfield和F. Gilbert(2007),“高分辨率高分辨率水动力生态系统耦合模型中的不确定性量化”,J。Mar. Syst。,64(1-4),3-14,doi:10.1016 /j.jmarsys.2006.02.010。
Moriasi,D.,Gitau,M.Pai,N.和Daggupati,P.(2015年),水文和水质模型:ASABE的绩效指标和评估标准交易(美国农业和生物工程师学会)58(6): 1763-1785
只是为了补充上面的出色答案-以我的经验,评估指标和诊断工具与使用它们的人一样诚实。也就是说,如果您了解它们背后的数学原理,则可以人为地增加它们的数量,以使模型看起来更好,而无需增加其实际效用。
由于以上内容在提供解释/参考方面做得很好,因此我将简短回答。我只是想对第6部分的内容有所了解。度量标准只能通过mkt的回答为您提供帮助。
希望这可以帮助。