归一化与缩放


45

数据“规范化”和数据“缩放”之间有什么区别?直到现在我都认为这两个术语指的是同一过程,但现在我意识到还有一些我不知道/不了解的事情。另外,如果“规范化”和“缩放”之间存在差异,那么什么时候应该使用“规范化”而不是“缩放”,反之亦然?

请举例说明。


6
规范化通常意味着将您的观测值转换为(其中是可测量的,通常是连续的函数),使得它们看起来呈正态分布。用于规范化数据的转换的一些示例是幂转换缩放只是意味着,,这是将您的观察结果乘以常数,常数会改变比例(例如,从纳米到千米) 。 ˚F X˚F ˚F X= c ^ X Ç [R Çxf(x)ff(x)=cxcRc


标准化也是一种与标准化相同的缩放方法

我的统计资料声誉不足,无法回答。我认为您的问题的标题应该是“标准化与标准化”,因为这两种是重新缩放的不同方法。标准化正在将值重新缩放为0和1的范围,而标准化正在将分布偏移为平均值为0且标准偏差为1。
Hamid Heydarian

Answers:


23

我不知道“官方”定义,即使有,也不应信任它,因为您会发现它在实践中使用得不一致。

话虽如此,统计量的缩放通常意味着形式为的线性变换 。f(x)=ax+b

标准化既可以意味着应用转换,从而使转换后的数据大致呈正态分布,也可以简单地意味着将不同的变量置于一个通用范围内。标准化(即减去平均值并除以标准偏差)是稍后使用的示例。如您所见,这也是扩展的示例。第一个示例是获取对数正态分布数据的日志。

但是您应该带走的是,当您阅读它时,应该寻找对作者所做行为的更精确描述。有时您可以从上下文中获取它。


14

缩放是使数字感觉正确的个人选择,例如在零和一之间,或在一百和一百之间。例如,将以毫米为单位的数据转换为米,因为它更方便,或者英制。

归一化是按比例缩放到外部“标准”(即本地规范),例如去除均值并除以样本标准偏差,例如,以便将排序后的数据与累积法线或累积泊松进行比较,或者随你。

因此,如果讲师或经理希望数据“标准化”,则意味着“以我的方式对其进行缩放” ;-)


9

我不知道您是否确切地说这是什么意思,但是我看到很多人指的是标准化意味着数据标准化。标准化正在转换您的数据,因此平均值为0,标准差为1:

x <- (x - mean(x)) / sd(x)

我还看到人们使用术语标准化进行数据缩放,就像将数据转换为0-1范围一样:

x <- (x - min(x)) / (max(x) - min(x))

可能会造成混乱!

两种技术各有利弊。当缩放具有太多离群值的数据集时,您的非离群数据可能会以很小的间隔结束。因此,如果数据集的离群值太多,则可能需要考虑对其进行标准化。尽管如此,当您这样做时,最终将得到负面数据(有时您不想要)和无限制数据(您可能也不想要)。


3

居中意味着从变量中减去随机变量的平均值。即X -xi

缩放是指将变量除以其标准偏差。即西

两者的组合称为标准化或标准化。即x-xi / s


问题是重复的。
Michael Chernick
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.