可用于分类变量(R中)的不同编码类型是什么?何时使用它们?


14

如果您拟合线性模型或混合模型,则可以使用不同类型的编码将类别或名义变量转换为估计参数的多个变量,例如虚拟编码(R默认)和效果编码。

我听说在进行交互时最好使用效果编码(有时称为偏差编码或对比度编码),但是可能存在哪些对比度,何时使用哪种类型的对比度?

上下文是R中使用的混合建模lme4,但我认为可以使用更广泛的响应。抱歉,如果我错过了类似的问题。

编辑:两个有用的链接是:效果编码伪编码说明。


如果您拥有使用S-Plus的现代应用统计信息,那么在第六章
中将

4
我不认为你会发现一个完整的回答你的问题,但有很多关于不同类型的值编码的良好的信息在这里
gung-恢复莫妮卡

@gung该网站看起来真的很有趣。但是,它似乎没有涵盖对比度编码(或者还有其他名称)。
亨里克(Henrik)2012年

我不确定; 我想知道是否有误解。该页面的标题是“对比编码”。
gung-恢复莫妮卡

1
我不太明白还有什么问题。如果您需要不同类型的编码列表,则可以使用。您的问题的主要目的是什么?
gung-恢复莫妮卡

Answers:


4

如果我错了,其他人可以启发我,但是这里...

与先前水平的平均值相比,该水平有什么影响?即您有兴趣找到影响的阈值

  • 使用Helmert对比。我认为这是累积比较。当我有兴趣确定暴露的药物剂量反应极限时,我已经使用了此方法。一次与多个级别进行比较意味着更少的信息被丢弃。我认为这是累积比较。

该水平相对于基线水平有什么影响?也就是说,您对一个基准比较组感兴趣。

  • 使用伪变量编码(处理对比)。我认为这是基线比较。我通常在其他研究将一个小组/级别确定为重要的水平时使用此方法,而我的研究表明,超过此阈值时也存在关联。

变量的两个相邻级别的作用是什么?

  • 使用前进/后退差异。我认为这是短间隔的连续比较。我在比较不同社会经济地位水平的影响时使用了这一方法,当每个群体在自身权利上在组成上有所不同,并且比其他任何人都没有兴趣时。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.