Answers:
“消融”的原始含义是通过外科手术切除人体组织。“消融研究”一词起源于1960年代和1970年代的实验神经心理学领域,其中部分动物的大脑被切除以研究这种行为对其行为的影响。
在机器学习(尤其是复杂的深度神经网络)的背景下,采用“消融研究”来描述删除网络某些部分的过程,以便更好地了解网络的行为。
自Keras深度学习框架的主要作者Francois Chollet在2018年6月发布一条推文以来,该术语受到了关注:
消融研究对于深度学习研究至关重要-无法足够强调。了解系统中的因果关系是生成可靠知识(任何研究的目标)的最直接方法。消融是研究因果关系的一种非常省力的方法。
如果您进行任何复杂的深度学习实验设置,则有可能在不损失性能的情况下删除一些模块(或将某些经过训练的功能替换为随机的功能)。消除研究过程中的噪音:进行消融研究。
无法完全了解您的系统?运动部件很多吗?是否想确定它起作用的原因确实与您的假设有关?尝试删除东西。诚实地努力花费至少10%的实验时间来反驳论文。
例如,Girshick和同事(2014年)描述了一种由三个“模块”组成的物体检测系统:第一个提出使用选择性搜索算法在其中搜索对象的图像区域(Uijlings和同事2012年),馈入执行特征提取的大型卷积神经网络(具有5个卷积层和2个完全连接的层),然后将其馈送到一组支持向量机中进行分类。为了更好地理解该系统,作者进行了一次消融研究,其中删除了系统的不同部分-例如,删除CNN的一个或两个完全连接的层导致极少的性能损失,这使作者得出结论
CNN的大部分表示能力来自其卷积层,而不是来自更大的密集连接层。
OP要求提供/ how /的详细信息以进行消融研究,并提供全面的参考。我不相信对此有一个“一刀切”的答案。度量标准可能会有所不同,具体取决于应用程序和模型类型。如果我们仅将问题缩小到一个深层神经网络,那么很直觉地看到我们可以以有原则的方式删除层并探索这将如何改变网络的性能。除此之外,在实践中,每种情况都是不同的,并且在大型复杂机器学习应用程序的世界中,这意味着每种情况可能都需要一种独特的方法。
在OP的示例中-线性回归-消融研究没有意义,因为可以从线性回归模型中“删除”的所有都是预测因素。以“有原则的”方式执行此操作仅是一个反向逐步选择过程,通常不赞成这样做- 有关详细信息,请参见此处,此处和此处。对于线性回归,正则化过程(例如套索)是更好的选择。
参考:
Girshick,R.,Donahue,J.,Darrell,T.和Malik,J.,2014年。丰富的功能层次结构,用于准确的对象检测和语义分割。在IEEE关于计算机视觉和模式识别的会议论文集中(第580-587页)。
Uijlings,JR,Van De Sande,KE,Gevers,T。和Smeulders,AW,2013年。对物体识别的选择性搜索。国际计算机视觉杂志,第104卷第2期,第154-171页。