可以说我想为电影M创建一个Logistic分类器。我的特征将是诸如人的年龄,性别,职业,位置之类的东西。因此,训练集将类似于:
- 年龄性别职业位置Like(1)/ Dislike(0)
- 23 M软件US 1
- 24 F Doctor UK 0
等等。...现在我的问题是我应该如何缩放和表示我的特征。我想过的一种方法是:将年龄划分为年龄组,因此18-25、25-35、35岁以上,性别为M,F,位置为美国,英国,其他。现在为所有这些值创建一个二进制特征,因此age将具有3个二进制特征,每个特征对应于一个年龄组,依此类推。因此,来自美国的28岁男性将被表示为010 10 100(010->年龄组25-35,10->男性,100->美国)
在这里表示功能的最佳方法是什么?另外,我在一些例子中也注意到了。sklearn的研究表明所有特征均已按某种方式进行了缩放/归一化,例如,性别由两个值分别代表,男性和女性为0.0045和-.0.0045。我不知道如何进行这样的缩放/道德化?
我不清楚,为什么要扩展功能?通常将特征标准化为具有0的均值std dev。您可能需要根据要尝试分类的类来定义问题,逻辑回归对于二进制分类很有用。
—
BGreene
您当然不希望对年龄进行分类。如何评价“电影的评分”?是1到10的比例,“喜欢/不喜欢”还是什么?
—
彼得·弗洛姆
为简单起见,让我们假设只有两个类,即Like和Dislike。就像是1和不喜欢是0。已更改问题说明以反映这一点。
—
snow_leopard 2012年