我了解到,为了创建回归模型,我们必须通过将分类变量转换为虚拟变量来加以处理。例如,如果在我们的数据集中存在诸如location之类的变量:
Location
----------
Californian
NY
Florida
我们必须像这样转换它们:
1 0 0
0 1 0
0 0 1
但是,建议无论存在多少个虚拟变量,都必须丢弃一个虚拟变量。
为什么我们需要丢弃一个虚拟变量?
3
因为第三个虚拟对象可以解释为前两个的线性组合:FL = 1-(CA + NY)。
—
chainD
@chainD但是对三个以上虚拟变量的解释是什么?
—
米顿·萨克·舒夫罗
无论总数是多少,它都会比您拥有的类别总数少1。扩展您的示例,说所有50个州都在数据集中表示。对于给定的个人,假设您查看的前49个虚拟变量恰好都是零,那么即使不看,您也知道最后一个虚拟变量是1(假设数据集中的每个人都来自50个州之一)。换句话说,可以说,最后一个虚拟对象的信息已经包含在第一个49的结果中。
—
chainD
@chainD谢谢
—
Mithun Sarker Shuvro '18
如果不是春天,不是夏天,也不是秋天,那就是冬天!
—
Stev