Answers:
假设您的四个类别是眼睛的颜色(代码):棕色(1),蓝色(2),绿色(3),淡褐色(4)-暂时忽略异色症,紫色,红色,灰色等。
即使我3 = 3 × 1且4 = 2 × 2,也绝不会(我现在可以想象)表示绿色= 3 ×棕色,或榛树= 2 ×蓝色,正如我们的代码所暗示的那样。
因此(除非出于某种原因我们不希望这种含义渗入我们的分析中),我们需要使用某种编码。虚拟编码就是一个例子,它从我们想要讲述的关于眼睛颜色的统计故事中消除了这种关系。效果编码和赫克曼编码是其他示例。
更新:您针对四个类别的两个变量的示例与我对“虚拟代码”一词的理解不符,该术语通常需要用k − 1个虚拟变量(按类别对观察结果进行排序)替换类别(例如4 ):
id category dummy1 dummy2 dummy3
1 1 1 0 0
2 1 1 0 0
3 2 0 1 0
4 2 0 1 0
5 3 0 0 1
6 3 0 0 1
7 4 0 0 0
8 4 0 0 0
假设模型中存在常量,类别4是参考类别,例如:
其中是的平均值Ŷ当类别= 4,和β与每个虚设相关术语表示通过什么量ý更改自β 0该类别。
如果你不具有恒定的()的模型项,那么你就需要多一个“虚拟”的预测(也许不经常被称为“指标变量”),实际上则假人的每个表现为每种类别的模型常数:
因此,这可以解决我首先提到的类别代码之间创建荒谬的定量关系的问题,但是为什么不按照您的建议使用user12331编码呢?user12331编码候选A:
id category code1 code2
1 1 0 ?
2 1 0 ?
3 2 1 ?
4 2 1 ?
5 3 ? 0
6 3 ? 0
7 4 ? 1
8 4 ? 1
您很正确地指出,一个可以使用2个二进制变量(即两位)表示4个值。不幸的是,一种解决方法(类别1和类别2的代码1,类别3和类别4的代码2)留下了由问号表示的歧义:在那里会有什么值?
好吧,关于第二种方法,将其称为user12331编码候选B:
id category code1 code2
1 1 0 0
2 1 0 0
3 2 0 1
4 2 0 1
5 3 1 0
6 3 1 0
7 4 1 1
8 4 1 1
那里!没有歧义吧?对!不幸的是,所有这些编码所做的都是以二进制表示形式表示数字量1-4(或0-3),这完全保留了将这些不良数量关系赋予类别的问题。
因此,需要另一种编码方案。