Answers:
我将举一个“提升”如何有用的示例。
想象一下,您正在运行一个直接邮件营销活动,在该活动中您向客户邮寄要约,以希望他们能够做出回应。历史数据显示,当您完全随机地向客户群发送邮件时,大约有8%的客户会对此邮件做出响应(即,他们随报价一起进来购物)。因此,如果您邮寄1,000个客户,则可以预期有80位响应者。
现在,您决定将Logistic回归模型拟合到您的历史数据中,以找到可预测客户是否可能回复邮件的模式。使用逻辑回归模型,为每个客户分配了响应的可能性,您可以评估准确性,因为您知道他们是否实际响应。在为每个客户分配了概率之后,您就可以从得分最高的客户到得分最低的客户对其进行排名。然后,您可以生成一些“提升”图形,如下所示:
现在忽略顶部的图表。最下面的图表说,在我们根据客户的响应概率(从高到低)对客户进行分类,然后将它们分成十个相等的箱之后,箱#1(客户的前10%)中的响应率为29 %与随机客户的8%的对比,提升29/8 = 3.63。当我们在第4个分类箱中获得评分客户时,我们已经捕获了前三个分类中的太多记录,以致答复率低于我们期望的随机邮寄人员的水平。
现在看顶部的图表,这就是说,如果我们使用客户的概率评分,则仅通过邮寄评分最高的30%的客户,就可以得到总响应者的60%,而我们将随机邮寄该邮件。也就是说,使用该模型,仅通过邮寄评分最高的30%的客户,我们就能以30%的邮寄成本获得60%的预期利润,而这正是电梯的真正含义。
提升率不过是置信度与预期置信度的比率。在关联规则方面-“提升比率大于1.0表示,先例与结果之间的关系比两组独立时所期望的关系更重要。提升比率越大,关联关系越显着。 ” 例如-
如果超市数据库具有100,000个销售点交易,其中2,000个包含商品A和B,其中800个包含商品C,则关联规则“如果购买了A和B,则C是在同一商品上购买的行程”,可支持800笔交易(或者0.8%= 800 / 100,000)和40%的置信度(= 800 / 2,000)。考虑支持的一种方法是,从数据库中随机选择的交易将包含前项和后续结果中的所有项目的概率,而置信度是随机选择的交易将包括交易中的所有项目的条件概率。因此,假设交易包括前期的所有项目。
使用上面的示例,在这种情况下,预期的置信度表示“如果购买A和B不会增加购买C的可能性,则置信度”。它是包含结果的事务数除以事务总数。假设C的交易总数为5,000。因此,预期置信度为5,000 / 1,00,000 = 5%。以超市为例,Lift =置信度/预期置信度= 40%/ 5%=8。因此,Lift是一个值,它为我们提供有关if(先验)部分的then(随后)概率的增加的信息。 这是源文章的链接
提升只是衡量规则重要性的一种措施
它是一种检查该规则是否随机出现在列表中的措施,或者我们期望
提升=置信度/预期置信度
假设我们使用的是一家杂货店的示例,该示例正在测试具有前因和结果的关联规则的有效性(例如:“如果客户购买面包,他们也会购买黄油”)。
如果您查看所有事务,并随机检查一个事务,则该事务包含结果的概率为“期望的置信度”。如果查看包含该先决条件的所有事务,然后从中选择一个随机事务,则该事务将包含结果的概率为“可信度”。“提升”本质上是两者之间的区别。使用提升,我们可以检查具有高置信度的两个项目之间的关系(如果置信度低,则提升本质上无关紧要)。
如果它们具有较高的置信度和较低的升力,那么我们仍然知道这些物品经常一起购买,但是我们不知道结果是否是由于先行情况而发生的,或者仅仅是偶然(也许它们经常一起购买是因为它们在一起都是非常受欢迎的产品,但彼此之间没有任何关系)。
但是,如果置信度和提升度都很高,那么我们可以合理地假设结果是由于前因而发生的。升力越高,两项之间的关系只是巧合的可能性就越低。在数学上:
提升=置信度/预期置信度
在我们的示例中,如果我们对规则的信心很高而提升率很低,那意味着很多客户都在购买面包和黄油,但是我们不知道这是否是由于面包和黄油之间存在某种特殊关系或者是否面包和黄油只是个别受欢迎的商品,它们经常一起出现在杂货车中,这只是一个巧合。如果我们对规则的信心很高并且提升率很高,则表明前者与结果之间的相关性非常强,这意味着我们可以合理地假设客户购买黄油是因为他们购买了面包。升力越高,我们对这种联系的信心就越大。