我有一个包含20000个样本的数据集,每个样本都有12种不同的功能。每个样本都在类别0或1中。我想训练一个神经网络和一个决策林来对样本进行分类,以便我可以比较结果和这两种技术。
我偶然发现的第一件事是数据的正确规范化。一个特征是在范围,另外一个在[ 30 ,40 ]和有一个特点,大多采用值8和有时7.因此,正如我在不同的来源读取,输入数据的适当的归一化对于神经网络至关重要。我发现,有许多可能的方法可以对数据进行规范化,例如:
- 最小-最大归一化:输入范围被线性变换到间隔(或可替代[ - 1 ,1 ],关系?)
- Z-分数标准化:该数据被变换为具有零均值和单位方差:
我应该选择哪种归一化?决策林是否也需要规范化?通过Z-Score归一化,我的测试数据的不同功能不在同一范围内。这可能是个问题吗?是否应该使用相同的算法对每个功能进行归一化,以便我决定对所有功能使用Min-Max还是对所有功能使用Z-Score?
是否有组合,其中数据被映射到,并且还具有零平均值(这将意味着该数据的非线性变换,并因此在方差和输入数据的其他特征的改变)。
我感到有点迷茫,因为我找不到可以回答这些问题的参考资料。