标准化和标准化之间有什么区别?


118

在工作中,我们正在讨论此问题,因为我的老板从未听说过标准化。在线性代数中,归一化似乎是指矢量除以其长度。在统计中,标准化似乎是指减去均值再除以其SD。但是它们似乎也可以与其他可能性互换。

创建某种通用分数时,它由不同的指标组成,它们具有不同的平均值和不同的SD,您是否会进行标准化,标准化或其他?有人告诉我,这只是采取每个指标并将其分别除以SD的问题。然后将两者相加。这将导致可用于判断两个指标的通用评分。2

例如,假设您有乘地铁上班的人数(在纽约市)和有开车上班的人数(在纽约市)。

ÿ

Trainx
Cary

如果您想创建一个通用分数来快速报告交通波动,则不能只添加和因为会有更多的人乘坐火车。纽约有800万人居住,还有游客。每天有数百万人乘火车,数十万人乘汽车。因此,需要将它们转换为相似的规模才能进行比较。均值y mean(x)mean(y)

如果mean(x)=8,000,000

mean(y)=800,000

您可以将&归一化然后求和吗?您会标准化和然后求和吗?还是将它们除以各自的SD然后求和?为了得到一个数字,当波动时,表示总流量波动。y x yxyxy

任何供参考的文章或章节,将不胜感激。谢谢!

这也是我正在尝试做的另一个例子。

假设您是一名大学院长,并且您正在讨论入学要求。您可能希望学生具有至少一定的GPA和一定的考试分数。如果两者的规模相同,那就太好了,因为您可以将两者加在一起,然后说:“至少7.0的任何人都可以被录取。” 这样,如果一个预期的学生的GPA为4.0,他们可能会低至3.0的测试分数并仍然被录取。相反,如果某人的GPA为3.0,则仍然可以以4.0的测试分数被录取。

但这不是那样。ACT是36分制,大多数GPA是4.0(有些是4.3,很烦)。由于我不能仅仅添加ACT和GPA来获得某种通用分数,因此我该如何对其进行转换以便将它们添加进去,从而创建通用分数。然后作为院长,我可以自动接受分数超过特定阈值的任何人。甚至自动接受分数在前95%以内的所有人。

可以归一化吗?标准化?或只是将它们除以SD然后求和?


4
问题的最后一部分听起来像是您正在尝试根据多个属性创建评估 有关更多信息,请参阅stats.stackexchange.com/q/9137stats.stackexchange.com/q/9358上的问题和答复。特别要注意的是,标准化和标准化都与Dean问题没有直接关系。
ub

Answers:


64

归一化将值重新缩放为[0,1]的范围。在某些情况下,所有参数都必须具有相同的正标度,这可能会很有用。但是,数据集中的异常值将丢失。

Xchanged=XXminXmaxXmin

标准化会将数据重新缩放为平均值()为0,标准偏差()为1(单位方差)。σμσ

Xchanged=Xμσ

对于大多数应用,建议进行标准化。


7
您能否解释一下数据标准化后为什么“数据集中的异常值会丢失”?
学习者

3
在重新缩放的情况下,异常值将影响结果并且不会丢失。
Feras

@learner想象一下,如果您有[1 2 3 4 5 1000 2 4 5 2000 ...]。1000数据点的归一化值将变小,因为我们有2000
COLD ICE

3
@COLDICE我认为这取决于您使用的规范化算法。例如,如果将数据集中的每个数字除以最大值(例如2000),则它们的范围在0到1之间,并且不会影响离群值。
Alisson

3
我认为这根本不会影响离群值,否则不会在异常检测软件中完成。
Alisson

44

在商业世界中,“规范化”通常意味着将值范围“规范化为0.0到1.0”。“标准化”通常是指将值的范围“标准化”以测量该值与其平均值之间有多少标准偏差。但是,并非所有人都同意这一点。最好在使用它们之前先解释一下它们的定义

无论如何,您的转换都需要提供有用的东西。

在您的火车/汽车示例中,您是否知道相对于均值的标准差有多少呢?如果将这些“标准化”度量作为xy图相互绘制,则可能会看到相关性(请参见右侧的第一个图):

http://en.wikipedia.org/wiki/Correlation_and_dependence

如果是这样,那对您意味着什么?

就第二个例子而言,如果您要将GPA从一个量表“等同”到另一个量表,那么这些量表有什么共同点?换句话说,如何将这些最小值转换为等效值,并将这些最大值转换为等效值?

这是“规范化”的示例:

标准化链接

一旦以可互换的形式获得GPA和ACT分数,以不同的方式权衡ACT和GPA分数是否有意义?如果是这样,什么加权对您来说意味着什么?

编辑1(05/03/2011)========================================== =

首先,我将检查以上whuber建议的链接。最重要的是,在两个变量问题中,您将不得不提出一个变量与另一个变量的“等价性”。并且,一种将一个变量与另一个变量区分开的方法。换句话说,即使您可以将其简化为简单的线性关系,也需要“权重”将一个变量与另一个变量区分开。

这是两个变量问题的示例:

多属性实用程序

从最后一页开始,如果您可以说标准化的火车交通U1(x)与标准化的汽车交通U2(y)是“附加独立的”,那么您也许可以摆脱一个简单的等式,例如:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

k1 = 0.5意味着您对标准化的汽车/火车交通无动于衷。较高的k1表示火车交通U1(x)更为重要。

但是,如果这两个变量不是“加法独立的”,则必须使用更复杂的方程式。一种可能性显示在第1页:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

无论哪种情况,您都必须提出一个U(x, y)有意义的实用程序。

GPA / ACT问题也采用相同的一般权重/比较概念。即使它们是“标准化的”而不是“标准化的”。

最后一期。我知道您不会喜欢这样,但是术语“可加独立”的定义在以下链接的第4页上。我寻找了一个不太怪异的定义,但找不到。您可能会四处寻找更好的东西。

可加独立

引用链接:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

如此响应顶部的建议,如果在xy图上绘制标准化的火车交通量与标准化的汽车交通量,则可能会看到相关性。如果是这样,那么您就会陷入上面的非线性效用方程式或类似的问题。


好。你是对的。最好解释一下我的定义。再考虑一下,这不是我需要的定义。我需要的是创建1个通用分数的适当方法。无论是入学分数还是交通分数。如何创建一个通用的指标,该指标是其他变量的函数,这些变量被转换为将它们置于相似的规模上?而且不用担心重量。我知道,即使是简单的求和,也将权衡指标1/1。但这对我来说现在就不那么重要了。
克里斯,

@Chris,我在上面的编辑中添加了我的答案。
bill_080

2
(+1)很好的编辑。@Chris:您可能对此处的一小段PowerPoint幻灯片的注释感兴趣:这是我给非技术人员的主题演讲。我之所以提及它,是因为它有一些有关如何“创建通用指标”的插图和指南。
ub

多属性公用事业链接是死的,文章可以在这里找到web.archive.org/web/20090530032248/http://www.doc.ic.ac.uk/~frk/...
mgilbert

6

答案很简单,但您不会喜欢它:这取决于。如果您从两个分数中均获得1个标准差的均值,那么标准化是可行的方法(请注意:实际上,您正在学习,因为您要除以总体SD 的估计值)。

如果不是这样,标准化很可能是一个很好的第一步,之后您可以乘以选择好的因素,从而对其中一个分数给予更大的权重。


因此,您是说至少从我所说的标准化(学习)开始,然后调整权重以最适合数据/场景?那讲得通。我只是不明白为什么要除以SD。在研究中,我发现了一种叫做“标准均值差”的东西。。。我一直感到困惑。看起来应该很简单。您可以将它们都放置在Scale-A上,或者将一个放置在另一个尺度上,然后求和。但不是。取而代之的是,我感到困惑,并且所有Wiki都暂时消失了。
克里斯,

0

要解决GPA / ACT或火车/汽车问题,为什么不使用几何均值

n√(a1×a2×...×an)

其中,a*是来自分布的值,是分布n的索引。

该几何均值可确保每个值都忽略其标度,均等地贡献于该平均值。查看更多几何均值


3
我认为几何平均值不适合OP所描述的情况。
gung

1
我同意龚先生的看法。几何均值不是此问题的解决方案。
费迪

几何均值将防止减少较小数字的贡献。因此,当必须合并不相等的比例尺时,它可能是标准化或规范化的替代方法。
rnso

0

在我的数据科学领域,规范化是数据的一种转换,可以轻松地对下游数据进行比较。有许多类型的规范化。扩展成为其中之一。您还可以记录数据,或执行其他任何操作。您使用的规范化类型将取决于所需的结果,因为所有规范化都会将数据转换为其他数据。

在这里,我考虑一些标准化的例子。 标度 归一化分位数归一化

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.