Answers:
标准化二进制变量没有任何意义。这些值是任意的;它们本身并不意味着任何东西。对于数值稳定性问题,选择一些值(如0和1)可能是合理的,但是仅此而已。
通常可以将值0、1的二进制变量缩放为(值-平均值)/ SD,这大概是您的z得分。
最明显的限制是,如果您碰巧得到全零或全零,那么盲目插入SD将意味着z分数不确定。只要值-均值等于零,有时也会分配零。但是,如果变量确实是一个常数,那么许多统计上的事情就没有多大意义。但是,更一般而言,如果SD较小,则得分不稳定和/或不确定性较高的风险更大。
给出更好的答案的问题恰恰是您正在考虑使用哪种“机器学习算法”。听起来好像这是一种将多个变量的数据组合在一起的算法,因此通常有理由按相似的规模提供它们。
(最新)原始海报一一添加评论,他们的问题正在演变。我仍然认为,只要SD为正,(值-均值)/ SD对于二进制变量有意义(即不是荒谬的)。但是,逻辑回归后来被命名为应用程序,为此,除了将二进制变量输入为0、1之外,没有任何其他理论或实践上的收获(实际上是一些简单性的损失)。您的软件应该能够很好地应对那; 如果不是,则放弃该软件,转而使用可以的程序。关于标题问题:可以,可以;可以。应该,不。
Gelman and Hill的第4.2节(http://www.stat.columbia.edu/~gelman/arm/)提供了一个很好的示例,可以用稍微不同的方式进行标准化。这主要是在对系数的解释感兴趣时,也许在预测变量不多的情况下。
在那里,它们标准化二进制变量(用0相等比例1)通过 而不是正常的σ。然后,这些标准化系数取值为±0.5,然后这些系数直接反映x=0和x=1之间的比较。如果用σ进行缩放,则系数将对应于x的可能值之差的一半。
在逻辑回归中,当您要给所有变量一个非信息量的先验变量(例如N〜(0,5)或Cauchy〜(0,5))时,可以将二进制变量与标准变量进行组合。建议标准化如下:取总数并给
1 = 1的比例
0 = 1-1的比例。
编辑:实际上我根本不对,不是标准化,而是以0为中心且上下限相差1的偏移,可以说A公司的人口为30%,其他公司的人口为70%,我们可以定义居中的“ Company A”变量以采用值-0.3和0.7。