我正在尝试通过逻辑回归模型基于某些功能来预测学生的成败。为了提高模型的性能,我已经考虑过根据明显的差异将学生分为不同的组,并为每个组构建单独的模型。但是我认为可能很难通过考试来确定这些群体,因此我想通过根据学生的特征将学生分类。这是建立此类模型的常见做法吗?您是否建议我将其分为明显的组(例如,第一学期学生与回国学生),然后对这些组进行聚类,或者从一开始就聚类?
尝试澄清:我的意思是说我正在考虑使用聚类算法将逻辑回归的训练集分成几组。然后,我将为每个组分别进行逻辑回归。然后,当使用Logistic回归预测学生的学习成绩时,我将根据他们最适合的群体选择要使用的模型。
也许我可以通过包含一个组标识符来做同样的事情,例如,如果学生要返回,则返回1,否则返回0。
现在,您让我开始思考,对训练数据集进行聚类并使用其聚类标签作为逻辑回归中的功能是否有利,而不是为每个总体建立单独的逻辑回归模型。
如果为回国学生和新生的学生添加组标识符很有用,扩展组列表是否也有用?群集似乎是执行此操作的自然方法。
我希望这很清楚...