预测最佳通话时间


10

我有一个数据集,其中包括一组位于加利福尼亚不同城市的客户,呼叫每个客户的时间以及呼叫状态(如果客户接听电话则为True,如果客户未接听则为False)。

我必须找到合适的时间来拜访未来的客户,以便接听电话的可能性很高。那么,解决此问题的最佳策略是什么?我应该将小时数(0,1,2,... 23)归类为分类问题吗?还是应该将其视为时间是连续变量的回归任务?如何确保接听电话的可能性很高?

任何帮助,将不胜感激。如果您让我参考类似的问题,那也很好。

以下是数据的快照。


肖恩·欧文(Sean Owen),任务如何进行?我现在正尝试解决类似的问题,希望能听听您的经验-网络上此主题的资源不多。提前致谢!
多米尼卡

Answers:


5

如果将其建模为没有适当转换的回归问题,则实际上可能会遇到问题。例如,我们知道大多数电话可能在白天接听,而在夜间和清晨则较少。线性回归将很困难,因为该关系可能是曲线的,而不是线性的。出于相同的原因,将其作为具有逻辑回归的分类任务也将是有问题的。

正如其他受访者建议的那样,将数据重新分类为时间段将有所帮助,我建议您首先尝试决策树或随机森林之类的方法。

综上所述,这可能是简单描述性统计的一种情况。如果您按一天中的时间(按城市或任何其他人口统计数据划分)来绘制已应答呼叫的比例,是否有明确的最佳时间?如果是这样,为什么要使模型复杂化?


1

您可以尝试以下方法:

  1. 将一天分为多个部分-早上,早晨,中午,下午,晚上,傍晚,晚上等。
  2. 为一天中的每个部分分配时间范围,例如中午可以是12 pm到1 pm。
  3. 创建3个新标签-“一天中的一天致电客户”,为每个肯定的情况(通话状态为true)分配相应的标签(早上/中午/晚上)。这些标签将采用一键编码格式,例如preferred_morning = 0/1,preferred_noon,preferred_evening等。
  4. 建立3个模型,以预测潜在客户是希望白天的上午/中午/还是晚上的时间才能成功进行通话。

另外,我建议添加其他功能,例如职业,性别等,因为表(城市等)中列出的功能过于模糊,并且不会提供太多信息来区分客户。

根据评论中的建议进行编辑:

使用模型时,每个销售线索将分类为:prefers_morning =是/否,prefers_noon =是/否和prefers_evening =是/否。基于一天中的时间(例如,早上),呼叫中心代理(或软件)可以接听并分类为早晨首选项集中的电话线索。中午时分,呼叫软件从中午首选列表中接听,依此类推。


@ sandeep-s-sandhu这是将问题转换为数据科学分类问题的简单方法。但似乎这种方法可能有一些缺点:1.标签信息仅包含肯定的情况,丢失否定情况的信息2.客户只能拥有其中一个标签。实际上,一个客户可以拥有多个标签(即,我希望人们在深夜或晚上给我打电话)。你怎么看?
nkhuyu '16

@ nkhuyu,1)标签还包含否定大小写。我认为您误解了以下语句:“为每个肯定的情况(通话状态为true)创建一个新标签-“一天中的一部分时间致电客户””。此步骤旨在创建一个附加标签,有关呼叫是否成功的原始标签将保持原样。2)是的,您是对的,编辑了答案以反映这一点。
Sandeep S. Sandhu

@ sandeep-s-sabdhu感谢您的回复。是的,我误会了。好。然后,您将有两个标签(通话状态,新标签)。那你怎么解决这个问题呢?这不是常规的分类问题。
nkhuyu

@nkhuyu,感谢您的注意,我现在在步骤4中对此进行了编辑和澄清。这三个模型中的每个模型都会提供一组线索,他们将在一天中的特定时间接听电话,呼叫中心会使用它来优先安排他们的呼叫。
Sandeep S. Sandhu

1
步骤1之后是步骤3,我建议这些步骤创建适当的训练标签。主要查询是-“我必须找到合适的通话时间...”。由OP决定这些时间是上午/中午/晚上还是更细粒度(例如按小时)。
Sandeep S. Sandhu

0

我将使用逻辑回归-您将需要样本未提取的样本。然后,我将这一小时视为一个季节性的虚拟回归变量(将23小时作为虚拟变量,并让其流向截距)。

如果您不将其视为季节性虚拟回归变量,则将必须执行某种转换,因为这种关系不会是线性的。

以前有人建议用下午中午等代替类别变量。这是一个坏主意,因为您拥有细节,而您正在那里失去细节。这将与使用最佳合并使关系线性化有相似的效果,但是我仍然认为这不可行。尝试季节性假回归。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.