我遇到了一些统计学家,他们从未使用线性回归以外的模型进行预测,因为他们认为诸如随机森林或梯度增强之类的“ ML模型”很难解释或“无法解释”。
在线性回归中,假设已验证一组假设(误差的正态性,同方差,无多重共线性),则t检验提供了一种检验变量重要性的方法,据我所知随机森林或梯度增强模型。
因此,我的问题是,是否要使用一组自变量来建模因变量,为了便于解释,我是否应该始终使用线性回归?
我遇到了一些统计学家,他们从未使用线性回归以外的模型进行预测,因为他们认为诸如随机森林或梯度增强之类的“ ML模型”很难解释或“无法解释”。
在线性回归中,假设已验证一组假设(误差的正态性,同方差,无多重共线性),则t检验提供了一种检验变量重要性的方法,据我所知随机森林或梯度增强模型。
因此,我的问题是,是否要使用一组自变量来建模因变量,为了便于解释,我是否应该始终使用线性回归?
Answers:
我很难相信您听到有人说这话,因为这样说是愚蠢的。这就像说您只使用锤子(包括打孔和更换灯泡),因为它使用起来很简单,并且可以提供可预测的结果。
第二,线性回归并不总是“可解释的”。如果您具有包含许多多项式项或仅具有许多特征的线性回归模型,则将很难解释。例如,假设您使用了MNIST的784个像素中的每个像素的原始值 †作为特征。知道像素237的权重等于-2311.67会告诉您有关该模型的任何信息吗?对于图像数据,查看卷积神经网络的激活图将更容易理解。
最后,还有可以同等解释的模型,例如逻辑回归,决策树,朴素贝叶斯算法等等。
†- 正如@Ingolifs在评论中注意到的那样,并且如本线程中所述,MNIST可能不是最佳示例,因为这是一个非常简单的数据集。对于大多数逼真的图像数据集,逻辑回归将不起作用,查看权重也不会给出任何直接的答案。但是,如果您仔细查看链接线程中的权重,则它们的解释也不是那么简单,例如,用于预测“ 5”或“ 9”的权重不会显示任何明显的模式(请参见下图,从另一个线程复制而来) )。
决策树将是另一个选择。或套索回归创建稀疏系统。
在《统计学习入门》一书中查看此图。 http://www.sr-sv.com/wp-content/uploads/2015/09/STAT01.png
我会同意蒂姆(Tim)和mkt的回答-机器学习模型不一定是无法解释的。我将指导您使用DALEX R软件包《描述性机器学习概论》,该软件包致力于使ML模型可解释。
不,这是不必要的限制。有很多可解释的模型,不仅包括线性模型(如Frans Rodenburg所说),广义线性模型和广义加性模型,还包括用于回归的机器学习方法。我包括随机森林,梯度增强机器,神经网络等等。仅仅因为您没有从类似于线性回归的机器学习模型中得出系数,并不意味着就无法理解它们的工作原理。这只需要更多的工作。
要了解原因,我建议您阅读以下问题:从随机森林中获取知识。它显示的是如何使几乎所有机器学习模型都可解释的方法。