如果我想要一个可解释的模型,除了线性回归之外还有其他方法吗?


18

我遇到了一些统计学家,他们从未使用线性回归以外的模型进行预测,因为他们认为诸如随机森林或梯度增强之类的“ ML模型”很难解释或“无法解释”。

在线性回归中,假设已验证一组假设(误差的正态性,同方差,无多重共线性),则t检验提供了一种检验变量重要性的方法,据我所知随机森林或梯度增强模型。

因此,我的问题是,是否要使用一组自变量来建模因变量,为了便于解释,我是否应该始终使用线性回归?


6
取决于您仍然认为线性的东西。广义线性模型和广义加性模型仍基于估计的线性分量进行工作,但可以对各种关系进行建模。
弗朗斯·罗登堡

2
还取决于您的意思是可解释的。对于机器学习模型,已经提出了各种“窥探黑匣子”的方法,但是可能不适合您的目标。
user20160

5
我不太清楚推断统计和t检验与可解释性有什么关系,而IMO主要是关于系数估计。
S. Kolassa-恢复莫妮卡

3
@StephanKolassa“可互写性”也可以与函数形式有关。例如,在回归模型中通过算法分数阶多项式曲线拟合(无论是线性regregre,GLM还是其他方法)产生的系数估计值,在获得良好拟合的同时,几乎可以肯定是违反直觉的:您能提醒一下所产生的形状数组吗?通过以下形式的模型,并因此解释您的系数估算值隐含的yx之间的关系?yi=β0+β1xi3/5+β2xi1/3+β3xi3+εiyx
亚历克西斯(Alexis)

2
@UserX您所描述的仍然是线性回归(即参数线性)。对比度Ŷ = β 0 + β 1 X + X β 2 + ε :前者是一个线性回归模型,而后者不能使用线性回归来估计。yi=β0+β1xi+β2xi2+εiyi=β0+β1xi+xiβ2+εi
亚历克西斯(Alexis)

Answers:


29

我很难相信您听到有人说这话,因为这样说是愚蠢的。这就像说您只使用锤子(包括打孔和更换灯泡),因为它使用起来很简单,并且可以提供可预测的结果。

第二,线性回归并不总是“可解释的”。如果您具有包含许多多项式项或仅具有许多特征的线性回归模型,则将很难解释。例如,假设您使用了MNIST的784个像素中的每个像素的原始值 †作为特征。知道像素237的权重等于-2311.67会告诉您有关该模型的任何信息吗?对于图像数据,查看卷积神经网络的激活图将更容易理解。

最后,还有可以同等解释的模型,例如逻辑回归,决策树,朴素贝叶斯算法等等。

†- 正如@Ingolifs在评论中注意到的那样,并且如本线程中所述,MNIST可能不是最佳示例,因为这是一个非常简单的数据集。对于大多数逼真的图像数据集,逻辑回归将不起作用,查看权重也不会给出任何直接的答案。但是,如果您仔细查看链接线程中的权重,则它们的解释也不是那么简单,例如,用于预测“ 5”或“ 9”的权重不会显示任何明显的模式(请参见下图,从另一个线程复制而来) )。


2
我认为这个答案很好地展示了如何清楚地解释MNIST上的逻辑回归。
Ingolifs

1
@Ingolifs同意,但这是一个激活图,您可以对神经网络执行相同的操作。
蒂姆

无论它叫什么,它都能清楚地说明logistic回归用于决策的方式,而对于神经网络的激活图而言,这是您所不了解的。
Ingolifs

1
@Ingolifs MNIST可能不是最好的例子,因为它非常简单,但要点是,您将对神经网络使用相同的方法。
蒂姆


7

我会同意蒂姆(Tim)和mkt的回答-机器学习模型不一定是无法解释的。我将指导您使用DALEX R软件包《描述性机器学习概论》,该软件包致力于使ML模型可解释。


1
DALEX软件包确实非常有趣,您知道Python是否存在类似的东西吗?
维克多

@Victor我不知道DALEX的Python版本,但是你可以尝试使用在Python调用[R rpy2.readthedocs.io/en/version_2.8.x/introduction.html例如。
babelproofreader

6

不,这是不必要的限制。有很多可解释的模型,不仅包括线性模型(如Frans Rodenburg所说),广义线性模型和广义加性模型,还包括用于回归的机器学习方法。我包括随机森林,梯度增强机器,神经网络等等。仅仅因为您没有从类似于线性回归的机器学习模型中得出系数,并不意味着就无法理解它们的工作原理。这只需要更多的工作。

要了解原因,我建议您阅读以下问题:从随机森林中获取知识。它显示的是如何使几乎所有机器学习模型都可解释的方法。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.