数据“规范化”和数据“缩放”之间有什么区别?直到现在我都认为这两个术语指的是同一过程,但现在我意识到还有一些我不知道/不了解的事情。另外,如果“规范化”和“缩放”之间存在差异,那么什么时候应该使用“规范化”而不是“缩放”,反之亦然?
请举例说明。
数据“规范化”和数据“缩放”之间有什么区别?直到现在我都认为这两个术语指的是同一过程,但现在我意识到还有一些我不知道/不了解的事情。另外,如果“规范化”和“缩放”之间存在差异,那么什么时候应该使用“规范化”而不是“缩放”,反之亦然?
请举例说明。
Answers:
我不知道您是否确切地说这是什么意思,但是我看到很多人指的是标准化意味着数据标准化。标准化正在转换您的数据,因此平均值为0,标准差为1:
x <- (x - mean(x)) / sd(x)
我还看到人们使用术语标准化进行数据缩放,就像将数据转换为0-1范围一样:
x <- (x - min(x)) / (max(x) - min(x))
可能会造成混乱!
两种技术各有利弊。当缩放具有太多离群值的数据集时,您的非离群数据可能会以很小的间隔结束。因此,如果数据集的离群值太多,则可能需要考虑对其进行标准化。尽管如此,当您这样做时,最终将得到负面数据(有时您不想要)和无限制数据(您可能也不想要)。