这个学期我有一个机器学习课程,教授要求我们找到一个现实世界的问题,并通过课堂上介绍的一种机器学习方法来解决它,例如:
我是stackoverflow和stackexchange的忠实拥护者之一,并且知道这些网站的数据库转储是向公众提供的,因为它们很棒!我希望我能找到一个很好的关于这些数据库的机器学习挑战并解决它。
我的想法
我想到的一个主意是根据问题正文中输入的单词预测问题的标签。我认为贝叶斯网络是学习问题标签的正确工具,但需要更多研究。无论如何,在学习阶段之后,当用户完成输入问题时,应该向他建议一些标签。
请告诉我:
我想向经验丰富的stats社区询问ML两个问题:
您是否认为标签建议至少是一个有机会解决的问题?您对此有何建议?我有点担心,因为stackexchange尚未实现此类功能。
您是否对基于stackexchange数据库的ML项目有其他/更好的主意?我发现很难从stackexchange数据库中学习一些东西。
关于数据库错误的考虑: 我想指出的是,尽管数据库很大并且有很多实例,但它们并不是完美的,并且容易出错。显而易见的是,用户年龄不可靠。甚至选择的问题标签也不是100%正确。无论如何,我们在选择问题时应考虑数据正确性的百分比。
关于问题本身的考虑:我的项目不应与之有关data-mining
。它仅应是ML方法在现实世界中的应用。