我的问题是,在拟合逻辑回归之前,我们是否需要标准化数据集以确保所有变量在[0,1]之间具有相同的标度。公式为:
我的数据集有2个变量,它们针对两个通道描述相同的事物,但是数量不同。假设这是两家商店的顾客拜访次数,这里是顾客是否购物。因为客户可以在购物之前访问两个商店,或者两次访问第一家商店,所以第二次访问一次。但是第一家商店的客户访问总次数是第二家商店的10倍。当我适合这个逻辑回归,没有标准化, coef(store1)=37, coef(store2)=13
; 如果我将数据标准化,则coef(store1)=133, coef(store2)=11
。这样的事情。哪种方法更有意义?
如果我适合决策树模型怎么办?我知道树结构模型不需要标准化,因为模型本身会以某种方式对其进行调整。但是请与大家一起检查。
C
发生变化。因此,您需要C
在数据标准化后进行选择。