我有一个数据集,其中包括一组位于加利福尼亚不同城市的客户,呼叫每个客户的时间以及呼叫状态(如果客户接听电话则为True,如果客户未接听则为False)。
我必须找到合适的时间来拜访未来的客户,以便接听电话的可能性很高。那么,解决此问题的最佳策略是什么?我应该将小时数(0,1,2,... 23)归类为分类问题吗?还是应该将其视为时间是连续变量的回归任务?如何确保接听电话的可能性很高?
任何帮助,将不胜感激。如果您让我参考类似的问题,那也很好。
以下是数据的快照。
我有一个数据集,其中包括一组位于加利福尼亚不同城市的客户,呼叫每个客户的时间以及呼叫状态(如果客户接听电话则为True,如果客户未接听则为False)。
我必须找到合适的时间来拜访未来的客户,以便接听电话的可能性很高。那么,解决此问题的最佳策略是什么?我应该将小时数(0,1,2,... 23)归类为分类问题吗?还是应该将其视为时间是连续变量的回归任务?如何确保接听电话的可能性很高?
任何帮助,将不胜感激。如果您让我参考类似的问题,那也很好。
以下是数据的快照。
Answers:
您可以尝试以下方法:
另外,我建议添加其他功能,例如职业,性别等,因为表(城市等)中列出的功能过于模糊,并且不会提供太多信息来区分客户。
根据评论中的建议进行编辑:
使用模型时,每个销售线索将分类为:prefers_morning =是/否,prefers_noon =是/否和prefers_evening =是/否。基于一天中的时间(例如,早上),呼叫中心代理(或软件)可以接听并分类为早晨首选项集中的电话线索。中午时分,呼叫软件从中午首选列表中接听,依此类推。
我将使用逻辑回归-您将需要样本未提取的样本。然后,我将这一小时视为一个季节性的虚拟回归变量(将23小时作为虚拟变量,并让其流向截距)。
如果您不将其视为季节性虚拟回归变量,则将必须执行某种转换,因为这种关系不会是线性的。
以前有人建议用下午中午等代替类别变量。这是一个坏主意,因为您拥有细节,而您正在那里失去细节。这将与使用最佳合并使关系线性化有相似的效果,但是我仍然认为这不可行。尝试季节性假回归。