什么是消融研究?有没有系统的方法来执行它?


27

什么是消融研究?有没有系统的方法来执行它?例如,我在线性回归中有预测变量,我将其称为模型。n

我将如何对此进行消融研究?我应该使用什么指标?

全面的资料或教科书将不胜感激。


4
术语“消融研究”通常在神经网络的背景下使用,尤其是相对复杂的R-CNN。这个想法是通过删除一部分网络并研究其性能来了解网络。在您提出的线性回归的背景下,消融实际上没有任何意义-它将变成一种向后逐步变量选择的过程。
罗伯特·隆

Answers:


48

“消融”的原始含义是通过外科手术切除人体组织。“消融研究”一词起源于1960年代和1970年代的实验神经心理学领域,其中部分动物的大脑被切除以研究这种行为对其行为的影响。

在机器学习(尤其是复杂的深度神经网络)的背景下,采用“消融研究”来描述删除网络某些部分的过程,以便更好地了解网络的行为。

自Keras深度学习框架的主要作者Francois Chollet在2018年6月发布一条推文以来,该术语受到了关注:

消融研究对于深度学习研究至关重要-无法足够强调。了解系统中的因果关系是生成可靠知识(任何研究的目标)的最直接方法。消融是研究因果关系的一种非常省力的方法。

如果您进行任何复杂的深度学习实验设置,则有可能在不损失性能的情况下删除一些模块(或将某些经过训练的功能替换为随机的功能)。消除研究过程中的噪音:进行消融研究。

无法完全了解您的系统?运动部件很多吗?是否想确定它起作用的原因确实与您的假设有关?尝试删除东西。诚实地努力花费至少10%的实验时间来反驳论文。

例如,Girshick和同事(2014年)描述了一种由三个“模块”组成的物体检测系统:第一个提出使用选择性搜索算法在其中搜索对象的图像区域(Uijlings和同事2012年),馈入执行特征提取的大型卷积神经网络(具有5个卷积层和2个完全连接的层),然后将其馈送到一组支持向量机中进行分类。为了更好地理解该系统,作者进行了一次消融研究,其中删除了系统的不同部分-例如,删除CNN的一个或两个完全连接的层导致极少的性能损失,这使作者得出结论

CNN的大部分表示能力来自其卷积层,而不是来自更大的密集连接层。

OP要求提供/ how /的详细信息以进行消融研究,并提供全面的参考。我不相信对此有一个“一刀切”的答案。度量标准可能会有所不同,具体取决于应用程序和模型类型。如果我们仅将问题缩小到一个深层神经网络,那么很直觉地看到我们可以以有原则的方式删除层并探索这将如何改变网络的性能。除此之外,在实践中,每种情况都是不同的,并且在大型复杂机器学习应用程序的世界中,这意味着每种情况可能都需要一种独特的方法。

在OP的示例中-线性回归-消融研究没有意义,因为可以从线性回归模型中“删除”的所有都是预测因素。以“有原则的”方式执行此操作仅是一个反向逐步选择过程,通常不赞成这样做- 有关详细信息,请参见此处此处此处。对于线性回归,正则化过程(例如套索)是更好的选择。

参考:

Girshick,R.,Donahue,J.,Darrell,T.和Malik,J.,2014年。丰富的功能层次结构,用于准确的对象检测和语义分割。在IEEE关于计算机视觉和模式识别的会议论文集中(第580-587页)。

Uijlings,JR,Van De Sande,KE,Gevers,T。和Smeulders,AW,2013年。对物体识别的选择性搜索。国际计算机视觉杂志,第104卷第2期,第154-171页。


1
@cgo会回答您的问题吗?如果是这样,请您将其标记为可接受的答案...
罗伯特·隆
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.