一种热编码和遗漏编码之间有什么区别?


13

我正在阅读演示文稿,建议您不要使用遗漏编码,但是使用一种热门编码是可以的。我以为他们都是一样的。谁能描述他们之间的区别?


1
不清楚(仅从您的问题出发)什至是免排队。您应该对其进行编辑以给出一个指针,并简要说明您对两者的理解以及为什么您认为它们相同。
肖恩·欧文

Answers:


15

他们可能正在使用“留出一个编码”来指代Owen Zhang的策略。

来自:https : //www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

编码列不是常规的伪变量,而是该分类级别所有行(不包括行本身)的平均响应。这为您提供了分类的一栏表示的优势,同时避免了直接响应泄漏

这张照片很好地表达了这个想法。 在此处输入图片说明


您的解释比所引用链接中的wacax更好,谢谢您
艾伦·鲁因

@Dex Groves,您好,所以测试的Leave_one_out编码始终为.5?
user7117436

3
嗨!从图中可以看出,该示例与分类问题有关。是否有人在回归问题中具有LOO编码的经验?主要问题是如何汇总目标变量。我现在正在做实验,并用均值(y)进行大量拟合。
Alexey Trofimov

1
对于聚类(无监督)问题,是否可以使用这种编码?
enneppi

@AlexeyTrofimov-尝试使用方差较小的聚合。我将从不同的装箱开始(例如1K,2K,2M,..表示较大的y int值,或将某些整数舍入到y浮点值的小数位)=> mean(bin_f(y))
mork
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.