我有一个来自Facebook应用程序的数据库,我正在尝试使用机器学习根据用户喜欢的Facebook网站估算其年龄。
我的数据库具有三个关键特征:
我的训练集中的年龄分布(总共12,000个用户)偏向年轻用户(即,我有1157个27岁的用户和23个65岁的用户);
许多站点的点赞者不超过5个(我过滤掉了少于5个点赞的FB站点)。
功能比示例更多。
因此,我的问题是:您建议采取什么策略准备数据以进行进一步分析?我应该执行某种降维吗?在这种情况下,哪种ML方法最合适?
我主要使用Python,因此非常感谢Python特定的提示。