我知道以下事实:具有k个级别的分类变量应使用虚拟编码中的k-1个变量进行编码(与多值分类变量类似)。我想知道针对不同的回归方法,主要是线性回归,惩罚线性回归(Lasso,Ridge,ElasticNet),基于树的(随机森林),单次热编码(即使用k个变量代替)比虚拟编码有多少问题? ,梯度增强机)。
我知道在线性回归中会出现多重共线性问题(即使实际上我使用OHE拟合线性回归也没有任何问题)。
但是,是否需要在所有编码中都使用伪编码?如果使用一热编码,结果将有多大错误?
我的重点是在具有多个(高基数)分类变量的回归模型中进行预测,因此我对置信区间不感兴趣。