名义/分类数据的“虚拟变量”与“指标变量”


15

“虚拟变量”和“指示变量”是标签常用术语,用于描述使用0/1编码的类别中的成员资格;通常为0:不属于类别成员; 1:属于类别成员。

2014年11月26日,对Scholar.google.com(带引号)进行了快速搜索,发现约有318,000篇文章使用了“虚拟变量”,而约112,000篇文章中使用了“指标变量”。术语“虚拟变量”在“ 绑定变量 ”的非统计数学中也具有含义,这很可能有助于在索引文章中更多地使用“虚拟变量”。

我的局部关联问题:

  1. 这些术语是否始终是同义词(在统计范围内)?
  2. 这些术语中的任何一个是否曾经被接受地应用于其他形式的分类编码(例如,效果编码Helmert编码等)?
  3. 有什么统计学或学科原因比一个术语更喜欢一个术语?

4
我倾向于在二进制条件下使用“指标变量”,例如,性别可以male1或编码0。如果存在一个具有两个以上类别的类别变量,然后将其扩展为每个级别的成员资格的指标变量,我将使用“虚拟变量”来描述那组指标变量。
Gregor-恢复莫妮卡2014年

2
我认为您的意思是性别可能被编码为1或0,性别则要复杂得多。(为此,性也可能更加复杂);)
Alexis

2
记分良好,编辑为sex
Gregor-恢复莫妮卡2014年

2
我倾向于称这样的指标变量male,其中1表示true(在这种情况下为男性),0表示false(在这种情况下为女性)。如果使用变量名sex,则每次返回该数据集时,我都必须查找该变量的编码方式。
Maarten Buis 2014年

4
我听到过各种关于“虚拟变量”的故事,不幸的是,这些故事被非技术人员误解为暗示不屑或贬低。他们令人尴尬和令人信服,足以使我反对该术语。在我看来,“指标”是明确而直接的。
尼克·考克斯

Answers:


12

我会说“虚拟变量”是一种更通用的方式来指代(共同表示)分类预测变量的数值变量中的一个。因此,该术语也适用于Helmert和效果编码†中使用的术语。这主要是由于通常使用“虚拟”来表示“备用”。“指标变量”我涉及指标函数‡-那些只能是1或0来表示具有或不具有某些属性;因此,该术语仅适用于参考级编码※中使用的术语。当然,有些人使用“虚拟编码”来表示“参考级编码”。他们大概对“虚拟变量”有更严格的定义,或者无论如何应该有。

†如果你不叫那些“傻瓜”,什么你给他们打电话?

‡所以例如虚设是用于当所述指示器变量个人ù 是男(集合的成员中号): X = 1 中号Ù = { 1 瓦特ħ Ë Ñ ù 中号0 瓦特ħ Ë ñ ù 中号xiiuiM

xi=1M(ui)={1when uiM0when uiM

1M()M

※或者,正如@gung指出的那样,均值均值编码。


2
嗯...您可以提供一些链接来激发这一点吗?以我的经验,“虚拟变量”被大量用于0/1编码。不知道我是否按照您的建议使用了虚拟道具,并知道其他人以相反的方式使用它。例如,Alkharusi,H.(2012)“回归分析中的分类变量:虚拟和效果编码的比较”,国际教育杂志 4(2):202-210。
Alexis 2014年

2
我并不是说“虚拟变量”没有用于0/1编码,只是说它可以在更一般的意义上使用。
Scortchi-恢复莫妮卡

1
确实,您引用的那篇论文确实说过,使用效果编码,“虚拟变量取值为1、0和-1”。(当然,如果他们要说的话,我认为他们应该称呼“虚拟编码”。)
Scortchi-恢复莫妮卡

1
有...关于您的匕首上标的问题,我倾向于称它们为“使用XXX编码的分类变量”。
Alexis 2014年

2
克努斯(Knuth)在arxiv.org/abs/math/9205211中最好地指出了这一点。他将这个想法归功于KE Iverson。简而言之,我们不需要发明或调用指标函数,而可以在正式讨论中遵循我们的软件为我们做什么。
尼克·考克斯

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.