一个热向量应该用数值属性缩放吗


20

在具有分类属性和数字属性的组合的情况下,我通常将分类属性转换为一个热向量。我的问题是我应该保留这些向量不变,并通过标准化/归一化来缩放数字属性,还是应该将一个热向量与数字属性一起缩放?

Answers:


11

一旦转换为数值形式,模型对一键热编码的列的响应就不会像对任何其他数值数据那样有所不同。因此,如果出于某种原因准备其他列,则有一个明确的先例可以标准化{0,1}值。

这样做的效果将取决于模型类和您应用的归一化类型,但是我注意到在训练神经网络时,对一个热编码的分类数据定标为均值0,标准1时,会有一些(小的)改进。

对于基于距离量度的模型类,这可能也会有所不同。

不幸的是,像大多数此类选择一样,通常您必须尝试两种方法并采用最佳度量标准。


1
措词有点不清楚。您是说如果对任何非ohe列进行了归一化,则仅对一个热编码列进行了归一化?
Info5ek '19

@ Info5ek:我说规范化一个热编码的列可能更好,并且如果您已经为其他列进行过编码,那么也可以尝试一下。对此没有固定的规则,太多取决于当前的问题。
尼尔·斯莱特
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.