您是否应该标准化二进制变量?


25

我有一个具有一组功能的数据集。其中一些是二进制的活动或已发射,非活动或处于休眠状态),其余为实际值,例如。0 = 4564.3421个=0=4564.342

我想这个数据馈送到机器学习算法,所以我 -score所有的实值的功能。我大约在到之间。现在二进制值也为得分,因此零变为而其变为。3 2 z 0.222 0.5555ž3-2ž-0.2220.5555

这样标准化二进制变量有意义吗?

Answers:


14

标准化二进制变量没有任何意义。这些值是任意的;它们本身并不意味着任何东西。对于数值稳定性问题,选择一些值(如0和1)可能是合理的,但是仅此而已。


如果它们介于0到100之间呢?就像我说的,它们的意思是“被识别的面孔”和“未被识别的面孔”,0-100表示​​置信度。z得分是否有意义?
siamii

您的0-100示例听起来像是序数等级。关于如何最好地处理这种情况,有一些细节,有关CV的讨论也很多。搜索序号标签以了解更多信息。
gung-恢复莫妮卡

好吧,问题在于只有一些变量是0-100。其他例如
-400-

那是什么问题?这是数值稳定性问题吗?
gung-恢复莫妮卡

也许,您是否建议我不计分?
siamii

14

通常可以将值0、1的二进制变量缩放为(值-平均值)/ SD,这大概是您的z得分。

最明显的限制是,如果您碰巧得到全零或全零,那么盲目插入SD将意味着z分数不确定。只要值-均值等于零,有时也会分配零。但是,如果变量确实是一个常数,那么许多统计上的事情就没有多大意义。但是,更一般而言,如果SD较小,则得分不稳定和/或不确定性较高的风险更大。

给出更好的答案的问题恰恰是您正在考虑使用哪种“机器学习算法”。听起来好像这是一种将多个变量的数据组合在一起的算法,因此通常有理由按相似的规模提供它们。

(最新)原始海报一一添加评论,他们的问题正在演变。我仍然认为,只要SD为正,(值-均值)/ SD对于二进制变量有意义(即不是荒谬的)。但是,逻辑回归后来被命名为应用程序,为此,除了将二进制变量输入为0、1之外,没有任何其他理论或实践上的收获(实际上是一些简单性的损失)。您的软件应该能够很好地应对那; 如果不是,则放弃该软件,转而使用可以的程序。关于标题问题:可以,可以;可以。应该,不。


3
简短的答案是,这没有什么不同,在这种情况下,我认为没有理由将0、1更改为z分数。为了说服自己,请尝试两种方式,然后再看没有重要的变化。
尼克·考克斯

3
相反,我认为大多数人会在这里使用0、1。
尼克·考克斯

1
当您进行逻辑回归时,该软件几乎肯定会在后台进行标准化(以实现更好的数值特性)。因此,最好以有意义的方式表示二进制指标。标准化听起来既不好也不有用。
ub

1
任何需要您“标准化”二进制预测变量的机器学习方法都是可疑的。
弗兰克·哈雷尔

2
由于这是您自己的实现,因此没有其他人可以给您客观的答案!您需要检查软件如何处理数据,以便确定先前的标准化是否有意义。
ub

3

Gelman and Hill的第4.2节(http://www.stat.columbia.edu/~gelman/arm/)提供了一个很好的示例,可以用稍微不同的方式进行标准化。这主要是在对系数的解释感兴趣时,也许在预测变量不多的情况下。

在那里,它们标准化二进制变量(用0相等比例1)通过 而不是正常的σ。然后,这些标准化系数取值为±0.5,然后这些系数直接反映x=0x=1之间的比较。如果用σ进行缩放,则系数将对应于x的可能值之差的一半。

X-μX2σX
σ±0.5X=0X=1个σX

请解释“ 0和1的比例相等”,因为我看到的二进制变量很少像这样。
尼克·考克斯

我认为比例实际上并不会有所不同,他们只是使用它来使示例更清晰。
戈塞特的学生

1

您想标准化什么,二进制随机变量或比例?

ÿ小号[Rÿ{01个}

X[01个]X[R+


0

在逻辑回归中,当您要给所有变量一个非信息量的先验变量(例如N〜(0,5)或Cauchy〜(0,5))时,可以将二进制变量与标准变量进行组合。建议标准化如下:取总数并给

1 = 1的比例

0 = 1-1的比例。

-----

编辑:实际上我根本不对,不是标准化,而是以0为中心且上下限相差1的偏移,可以说A公司的人口为30%,其他公司的人口为70%,我们可以定义居中的“ Company A”变量以采用值-0.3和0.7。


不能理解为标准化。
Michael R. Chernick
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.