为什么在机器学习中电源或对数转换没有被很好地教授?


24

机器学习(ML)大量使用线性和逻辑回归技术。这也依赖于功能工程技术(feature transformkernel,等)。

为什么没有任何关于variable transformation(例如power transformation)在ML提到?(例如,我从没听说过使用根或登录要素,它们通常仅使用多项式或RBF。)同样,为什么ML专家不关心因变量的要素转换?(例如,我从没听说过对y进行对数转换;他们只是不对y进行转换。)

编辑:也许不是肯定的问题,我真正的问题是“对变量的幂转换在ML中不重要吗?”


4
我想知道为什么这被否决了。这实际上是一个有趣的问题。
shadowtalker,2015年

1
我认为大多数人会在他们的第一门机器学习课程之前修过线性回归课程。毫无疑问,股票LR课程将包含有关这些内容(转换)的章节。顺便说一句,我没有反对这个问题。
user603 2015年

Answers:


12

Kuhn和Johnson 撰写的《Applied Predictive Modeling》一书是一本备受推崇的实用机器学习书,其中很大一部分涉及变量转换,包括Box-Cox。作者声称,如果特征具有对称和单峰分布,则许多机器学习算法都能更好地工作。像这样转换功能是“功能工程”的重要组成部分。


8

从我自己的角度来看,我经常对响应变量的预测分布感兴趣,而不是对条件均值感兴趣,在这种情况下,最好使用更正确地表示目标分布的可能性。例如,我喜欢使用核线性模型而不是(说)支持向量回归,因为如果需要,我可以使用泊松似然法。由于许多机器学习人员都是贝叶斯人,因此我怀疑使用不同的可能性似乎比进行转换更为优雅(通常,第一步是选择适当的可能性)。


0

这是我后来的想法。

我认为这是因为ML在很大程度上处理分类,并且分类不需要转换y(y是分类的)。ML通常处理较大的自变量(例如NLP中的数千个),并且逻辑回归不需要正态性;我认为这就是为什么出于速度考虑,他们不使用Box-Cox功率转换的原因。(注意:我对电源转换并不熟悉。)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.