考克斯模型与逻辑回归


15

假设我们遇到以下问题:

预测未来3个月内最有可能停止在我们商店购物的客户。
对于每个客户,我们都知道他们开始在我们的商店购买商品的月份,此外,我们还具有每月汇总的许多行为功能。“老大”的客户已经买了五十个月了。让我们表示自客户开始通过()开始购买以来的时间。可以假设客户数量很大。如果客户停止购买三个月然后又回来,则将其视为新客户,因此一个事件(停止购买)只能发生一次。tt[0,50]

我想到了两种解决方案:

Logistic回归 -对于每个客户和每个月(可能是最近三个月除外),我们可以说客户是否停止购买,因此我们可以对每个客户和每个月进行一次观察。我们可以将自开始以来的月数用作分类变量,以获取等效的基本危害函数。

扩展Cox模型 -也可以使用扩展Cox模型对该问题进行建模。看来这个问题更适合生存分析。

问题:在类似问题中进行生存分析有哪些优势?生存分析是出于某种原因而发明的,因此必须具有一定的优势。

我对生存分析的知识不是很深,我认为使用逻辑回归也可以实现Cox模型的大多数潜在优势。

  • 可以使用t和分层变量的相互作用获得等效的分层Cox模型。
  • 可以通过将种群分为几个亚群并为每个亚群估计LR来获得交互作用Cox模型。

我看到的唯一好处是Cox模型更加灵活。例如,我们可以轻松地计算出客户6个月后停止购买的可能性。

Answers:


10

Cox模型的问题在于它无法预测。从未真正估算出Cox模型中的“截距”(基线危险函数)。在这种情况下,可以使用逻辑回归来预测某些事件的风险或概率:对象是否在特定月份来购买东西。

普通逻辑回归背后的假设的问题是,您将每个人-月的观察视为独立的,而不管观察发生的是同一个人还是同一月。这可能很危险,因为某些商品是以两个月的间隔购买的,因此逐月观察的结果呈相关。或者,客户可能会因良好或不良的经验而留住或迷路,导致连续的人逐月观察结果呈相关。

我认为,此预测问题的一个好的开始是采用预测方法,在此方法中我们可以使用以前的信息来通知我们有关下个月业务的预测。一个简单的开始对这个问题进行调整的滞后效应,或者对象是否已经到达了一个指标最后一个月,因为它们是否会到达一个预测这个月。


2
这里不能使用多级逻辑回归来解决独立性问题吗?级别2将是客户,级别1将随着时间的推移重复进行测量。
Forinstance 2015年

1
@AdamO,截距可以被估计,并与个人的局部危险的预测组合,我们可以创建单独的存活曲线。我不确定您为什么认为Cox模型可以预测“无”。
戴维森(Cam.Davidson)。皮隆(Pilon)

@ Cam.Davidson.Pilon基线危害函数的估计是一个辅助过程(Breslow阶跃函数),必须在Cox模型之后进行。此外,在不确定性界限的计算上存在分歧,因为累积危害估计与模型参数之间的协方差尚不清楚。我使用的是假设独立性的方法以及霍尔和威尔纳界。δ
AdamO

出于预测目的,我认为这些不是阻碍因素。组合多个估计以创建单个预测并不罕见,并且(不幸的是,我并不主张)预测间隔无论如何都不常用。
Cam.Davidson.Pilon

@ Cam.Davidson.Pilon我不是说不能从生存数据中获得风险预测,而是说Cox模型不能预测风险。调用coxph和获取风险估计之间的步骤非常艰巨。
AdamO

3

为从客户j开始购买到停止为止的时间。生存分析允许计算概率,例如Pr T j > 3 ,即客户j购买至少3个月的概率。TjjPr(Tj>3)j3

生存分析考虑到每个客户都有自己的进入研究时间的事实。因此,跟进期因客户而异的事实不成问题。

j


备注:这是一篇论文,表明在某些约束下,逻辑模型和Cox模型都已链接。


感谢您的回答。如果SA正确处理了审查,则表明LR解决方案未正确处理审查。结果如何?我仍然无法说服自己,对于固定的时间目标,SA更好。我可以在某处免费找到本文吗?
Tomek Tarczynski

Y=0

我的电子邮件是:tomek.tarczynski@gmail.com非常感谢!
Tomek Tarczynski

@TomekTarczynski:收到了吗?
ocram

是的,再次感谢!明天我将有时间仔细阅读。我只是略读了一下,如果我理解正确的话,它可以解决一个稍微不同的问题。使用商店的类比,它将LR和COX与问题“从开始算起固定的月数后,客户不再是客户的概率是多少?”
Tomek Tarczynski

2

营销文献建议在这里或类似地方使用帕累托/ NBD。您基本上假设购买-在他们购买时-遵循负二项式分布。但是您必须对客户停止的时间进行建模。那是另一部分。

皮特·法德(Pete Fader)和布鲁斯·哈迪(Bruce Hardie)以及安倍(Abe)都发表了一些论文。

有几种简单的方法可以处理Pareto / NBD,甚至仅计算Fader和Hardie的各种论文即可。不要使用假设停止时间在每个时间点都是恒定的更简单的方法-这意味着您的大量客户更有可能更快地退出。这是一个更简单的模型,但有误。

我有一段时间没有适合其中的一个了。抱歉,我不太明确。

这是对安倍晋三论文的参考,该论文将这个问题重塑为分级贝叶斯。。如果我再次在这一领域工作,我想我会测试这种方法。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.