KNN应该使用哪种类型的数据规范化?


9

我知道有两种以上的规范化类型。

例如,

1-使用z分数或t分数转换数据。这通常称为标准化。

2-重新缩放数据以使其值介于0和1之间。

现在的问题,是否需要归一化

KNN应该使用哪种类型的数据规范化?为什么?

Answers:


11

对于k-NN,我建议到之间的数据标准化101

k-NN使用欧几里得距离作为比较示例的手段。计算两点之间的距离和 ,其中f_1 ^ ix_1的第i个特征的值:X 2 = ˚F 1 2˚F 2 2˚F 中号2˚F 1X 1x1=(f11,f12,...,f1M)x2=(f21,f22,...,f2M)f1iix1

d(x1,x2)=(f11f21)2+(f12f22)2+...+(f1Mf2M)2

为了使所有特征在计算距离时都具有同等的重要性,这些特征必须具有相同的值范围。这只能通过归一化来实现。

如果未对它们进行归一化,则特征在)中具有值的范围,而在具有值的范围。在计算距离时,第二项的重要性要比第一项高倍,从而导致k-NN更加依赖第二项特征。规范化可确保将所有要素映射到相同的值范围。f1[0,1f2[1,1010

另一方面,标准化确实具有许多有用的属性,但是不能确保将要素映射到相同的范围。尽管标准化可能最适合其他分类器,但k-NN或任何其他基于距离的分类器却并非如此。


4
如果我使用不同的距离而不是欧几里得距离(例如,曼哈顿距离或其他距离,甚至是小数距离),您的答案是否会相同?同样,如果变量的范围彼此接近。
jeza

7
是的,我仅以欧几里得距离为例,但是所有距离度量都受同一因素的影响。如果范围彼此接近,则不会对度量的计算产生太大影响,但仍然会影响度量的计算。例如,如果和,则仍然比重要。我忘了提到的一件事是,显然,标准化比不执行任何特征缩放要好得多。这比标准化还差。F1个[01个F2[01.2F220F1个
Djib2011 '18

啊,我明白了。“根本比归一化差”!?
jeza
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.