我认为问题是关于(X对Y的)边际效应,而不是解释单个系数。正如人们有用地指出的那样,这些有时只能用效果大小来识别,例如当存在线性和加性关系时。
如果这是重点,那么(从概念上来说,如果不是实际的话)考虑问题的最简单方法似乎就是:
为了获得X的Y上线性正常回归模型,没有互动的边际效应,你可以只是看X上,但系数,因为估计不知道这是不是很够。无论如何,人们真正想要的是边际效应,是某种情节或总结,它可以针对一系列X值以及不确定性的度量提供有关Y的预测。通常,一个人可能想要预测的平均值Y和一个置信区间,但也可能想要一个X的Y的完整条件分布的预测。该分布比拟合模型的sigma估计要宽,因为它考虑了模型系数的不确定性。
对于像这样的简单模型,有各种封闭形式的解决方案。出于当前的目的,我们可以忽略它们,而可以更广泛地考虑如何通过模拟来获得边际效应图,这种方式可以处理任意复杂的模型。
假设您希望改变X对Y的平均值的影响,并且很高兴将所有其他变量固定为一些有意义的值。对于X的每个新值,从模型系数的分布中获取一个大小为B的样本。在R中执行此操作的一种简单方法是假设它是具有均值coef(model)
和协方差矩阵的Normal vcov(model)
。为每组系数计算一个新的期望Y,并以一个间隔汇总该批次。然后移至下一个X值。
在我看来,只要在每个采样步骤中也应用它们(或它们的逆函数),该方法就不会受到应用于任何变量的任何奇特变换的影响。因此,如果拟合模型具有log(X)作为预测变量,则在将新X乘以采样系数之前记录新X。如果拟合模型将sqrt(Y)作为因变量,则将样本中的每个预测均值平方,然后将其汇总为一个区间。
简而言之,更多的编程但更少的概率计算,结果是临床上可理解的边际效应。在政治学文献中有时会将此“方法”称为“澄清”,但它相当笼统。