我熟悉分类变量的概念以及相应的伪变量编码,这些编码使我们能够将一个级别作为基线来避免共线性。我还熟悉如何从此类模型解释参数估计值:相对于基线类别,对于给定拟合类别的预测变量,结果的预测变化。
我不确定的是如何解释一组独立的变量,这些变量之和等于一个。如果我们将所有比例都拟合到模型中,我们将再次具有共线性,因此,我们大概必须将一类作为基线。我还假设我将使用III型SS对该变量的重要性进行整体测试。但是,我们如何解释模型中相对于基线的那些水平的参数估计呢?
一个示例:在邮政编码级别,自变量是变质岩,火成岩和沉积岩的比例。如您所知,这是三种主要的岩石类型,所有岩石都被分类为其中一种。这样,所有这三个部分的比例之和为1。结果是各个邮政编码中的平均ra水平。
例如,如果要拟合变质和火成岩比例作为模型中的预测因子,而以沉积物为基线,则通过对两个拟合水平的整体III型SS F-测试可以表明岩石类型总体上是否重要结果的预测因子(平均ra水平)。然后,我可以查看各个p值(基于t分布)以确定一种或两种岩石类型是否与基线显着不同。
但是,当涉及到参数估计时,我的大脑一直想将它们纯粹解释为组(摇滚类型)之间结果的预期变化,而且我不知道如何将它们按比例拟合这一事实纳入其中。
如果的变质估计值为例如0.43,则说明的不是简单的解释,即当岩石变质而沉积时,预测的平均the水平增加了0.43个单位。但是,这种解释也不只是简单地解释了变质岩类型比例的某种单位增加(例如0.1),因为这并没有反映出它也相对于基线(沉积物)以及变化的事实。变质的比例从本质上改变了火成岩模型中其他岩石水平拟合的比例。
有没有人提供提供这种模型的解释的资源,或者如果没有,您可以在这里提供一个简短的示例吗?