“标准化”是什么意思,以及如何验证样本或分布是否已标准化?


18

我有一个问题要询问是否验证均匀分布(Uniform(a,b))是否规范化。

  1. 首先,对任何分布进行规范化意味着什么?
  2. 第二,我们如何验证分布是否规范化?

我通过计算X理解 - 意思是

Xmeansd
我们得到归一化的数据,但是这里要求验证分布是否被归一化。

3
规范化分布的含义并不是那么简单(通常不是规范化分布本身,而是随机变量)。例如,在制服的情况下,有些人可能表示“线性重新缩放,以便获得标准的制服”(即,获得b = 1)……而另一个人的意思可能是“线性重新缩放,以使得到平均值0和SD 1”。对于制服,我通常会假设是第一个,但正如您从下面的答案中看到的那样,其他人可能会认为它是其他意思。最好的选择是要求使用该术语的人不要太含糊。a=0b=1
Glen_b-恢复莫妮卡

1
更常规的术语标准化(以达到平均的零和一的SD)和归一化(以使范围到间隔或重新缩放矢量范数1)。因此,重新表达X X - 平均值/小号d是一个标准化而密度乘以˚F由恒定Ç使∫ - Ç ˚F X d X =[0,1]1X(Xmean)/SDfC是一个归一化,因为˚F X d X大号1的范数 ˚FCf(x)dx=1f(x)dxL1f
ub

也有人问过math.SE。
Dilip Sarwate

1
请不要交叉发布 @Ada。这违反了SE政策。如果您在一个网站上发布了一个问题,然后又认为应该在另一个网站上发布了问题,请标记问题并请主持人为您迁移。
gung-恢复莫妮卡

Answers:


33

不幸的是,术语在不同领域中使用的方式不同,同一领域中的不同人员等等,所以我不确定在这里可以为您解答多少。您应该确保知道您的讲师/教科书用于“标准化”的定义。但是,以下是一些常见的定义:

中心: 标准化:X - 平均

Xmean
标准化 sdXminX
Xmeansd
在这种意义上,归一化会将数据重新缩放为单位间隔。 正如@Jeff指出的,标准化将您的数据转换为z分数。而中心只是使平均数据等于0
Xmin(X)max(X)min(X)
z0

在这里值得认识的是,这三个都是线性变换 ; 因此,它们不会改变分布的形状。也就是说,有时人们将 -score转换称为“正态化”,并由于z -scores与正态分布的关联而认为这使他们的数据呈正态分布。事实并非如此(正如@Jeff也指出的那样,您可以通过前后绘制数据来说明这一点)。如果您感兴趣,可以使用Box-Cox转换系列来更改数据的形状。 zz

关于如何验证这些转换,这取决于其确切含义。如果仅是为了检查代码是否正常运行,则可以检查均值,SD,最小值和最大值。


1
我已经看到标准化用于建议标准化的或建议装配到标准正态分布即,使三者的归一化是最有可能被误解。Ada关于将归一化常数应用于似然函数的评论是另一种可能的解释。Φ1(F(X))
亨利

4

通过使用样本中每个分数提供的公式,您可以将它们全部转换为 z分数

01

这样做的目的是将所有内容以相对于样品标准偏差的单位表示。这可能对多种目的很有用,例如比较使用不同单位(也许是厘米和英寸)评分的两个不同数据集。

重要的是,不要将其与询问分布是否为正(即它是否近似于高斯分布)相混淆。


因此,要检查均匀分布是否已归一化,是否等于E(X)= 0且Var(X)= 1,其中X〜Uniform(a,b)?

2
数据甚至不必来自统一的分布,它们可以来自任何分布。同样,这仅适用于您提供的公式;可以使用z分数以外的其他方式对数据进行标准化。例如,智商据说为100分数和的15标准偏差被归一化
杰夫

1

咨询电讯局长后,问题是要问是否

f(x)dx=1

f(x)


2
1

这是我们要求验证的内容。f(x)不一定必须是pdf,它可以是任何非负函数。对于上述条件不满足的任何非负函数,我们总是可以乘以归一化常数
Ada

1
不总是。例如,让FX=Ë-X,在所有实数上定义的非负函数:没有归一化常数。但是,当您在问题陈述中被告知“某某某类发行版的PDF某某某某”时,则没有什么可以验证的:按照定义,它可以集成为一体。
ub

确实不是任何非负函数都可以使它满足上述条件,即使我们乘以归一化常数也是如此。
阿达(Ada)2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.