数据挖掘中的提升措施

36

我搜索了许多网站，以了解电梯到底能起到什么作用？我发现的所有结果都是关于在应用程序中使用它而不是本身。

我了解支持和信心功能。在Wikipedia中，在数据挖掘中，提升是对模型在预测或分类案例时的性能的一种度量，是针对随机选择模型的度量。但是如何？信心*支持是提升的价值我也搜索了其他公式，但我不明白为什么提升图对于预测值的准确性很重要，我想知道提升的背后是什么政策和原因？

data-mining

— 尼克尔
source

2

在这里需要上下文。在市场营销中，这将是一个图表，该图表将指示各种营销活动预期的销售增长百分比，但是您可能会想到不同的情况。

— zbicyclist 2012年

59

我将举一个“提升”如何有用的示例。

想象一下，您正在运行一个直接邮件营销活动，在该活动中您向客户邮寄要约，以希望他们能够做出回应。历史数据显示，当您完全随机地向客户群发送邮件时，大约有8％的客户会对此邮件做出响应（即，他们随报价一起进来购物）。因此，如果您邮寄1,000个客户，则可以预期有80位响应者。

现在，您决定将Logistic回归模型拟合到您的历史数据中，以找到可预测客户是否可能回复邮件的模式。使用逻辑回归模型，为每个客户分配了响应的可能性，您可以评估准确性，因为您知道他们是否实际响应。在为每个客户分配了概率之后，您就可以从得分最高的客户到得分最低的客户对其进行排名。然后，您可以生成一些“提升”图形，如下所示：

在此处输入图片说明

现在忽略顶部的图表。最下面的图表说，在我们根据客户的响应概率（从高到低）对客户进行分类，然后将它们分成十个相等的箱之后，箱＃1（客户的前10％）中的响应率为29 ％与随机客户的8％的对比，提升29/8 = 3.63。当我们在第4个分类箱中获得评分客户时，我们已经捕获了前三个分类中的太多记录，以致答复率低于我们期望的随机邮寄人员的水平。

现在看顶部的图表，这就是说，如果我们使用客户的概率评分，则仅通过邮寄评分最高的30％的客户，就可以得到总响应者的60％，而我们将随机邮寄该邮件。也就是说，使用该模型，仅通过邮寄评分最高的30％的客户，我们就能以30％的邮寄成本获得60％的预期利润，而这正是电梯的真正含义。

— 乔什·赫曼
source

好的解释非常感谢。请您在提升图表中告诉我为什么我们需要随机样本？我了解8％是随机产生的，但为什么需要追踪随机？我看到了另一个追踪平均值的图表，我也不知道存在平均值的原因

— Nickool 2011年

我得到的结果是lift = 3.63表示直到第4列我们的响应率都比8％好，然后您仅假设第1列，并考虑29％（估计为30％）就认为第1列。那么3.63产生了什么提升？

— Nickool

1

哦，我的上帝！我理解我的错误，即30％与29％无关，而30％表示数据的3/10 3首列！现在我完全明白了：DI太开心了！！！！谢谢>：D <

— Nickool 2011年

1

1000 m a i l i n g a l l 1000 c u s t o m e r s a n d w e e x p e c t 8

$1000 mailing all 1000 customers and we expect 8% response, or 80 customers. Using the model, if we mail the top 30% based on their score (for a cost of 30% * 1000 *$

300) t h e n w e e x p e c t t o g e t 60

$300) then we expect to get 60% of the response (60% * 80 = 48 customers). Thus, the mail cost is only$

1000 - g e t - 80 - c u s t o m e r s v s S p e n d -

$1000-get-80-customers vs Spend-$

1

@ user1700890最上面的图表通常被标记为累积增益图表，而最下面的图表与累积提升图表不同（此处的提升永远不能低于1），而是将数据分为10个单独的bin。

— RobertF

3

提升图表示模型的响应与不存在模型之间的比率。通常，它由X中案例的百分比和Y轴中响应较好的次数表示。例如，在点10％处具有lift = 2的模型表示：

如果没有任何模型占据人口的10％（没有顺序，因为没有模型），则y = 1的比例将是y = 1的总人口的10％。
使用该模型，我们得到这个比例的2倍，即，我们期望得到y = 1的总人口的20％。前10％是前10％的预测

— 另一个用户
source

3

提升率不过是置信度与预期置信度的比率。在关联规则方面-“提升比率大于1.0表示，先例与结果之间的关系比两组独立时所期望的关系更重要。提升比率越大，关联关系越显着。 ” 例如-

如果超市数据库具有100,000个销售点交易，其中2,000个包含商品A和B，其中800个包含商品C，则关联规则“如果购买了A和B，则C是在同一商品上购买的行程”，可支持800笔交易（或者0.8％= 800 / 100,000）和40％的置信度（= 800 / 2,000）。考虑支持的一种方法是，从数据库中随机选择的交易将包含前项和后续结果中的所有项目的概率，而置信度是随机选择的交易将包括交易中的所有项目的条件概率。因此，假设交易包括前期的所有项目。

使用上面的示例，在这种情况下，预期的置信度表示“如果购买A和B不会增加购买C的可能性，则置信度”。它是包含结果的事务数除以事务总数。假设C的交易总数为5,000。因此，预期置信度为5,000 / 1,00,000 = 5％。以超市为例，Lift =置信度/预期置信度= 40％/ 5％=8。因此，Lift是一个值，它为我们提供有关if（先验）部分的then（随后）概率的增加的信息。这是源文章的链接

— Arpit Sisodia
source

2

提升只是衡量规则重要性的一种措施

它是一种检查该规则是否随机出现在列表中的措施，或者我们期望

提升=置信度/预期置信度

— 阿卜杜勒·瓦哈卜（Abdul Wahab）
source

0

假设我们使用的是一家杂货店的示例，该示例正在测试具有前因和结果的关联规则的有效性（例如：“如果客户购买面包，他们也会购买黄油”）。

如果您查看所有事务，并随机检查一个事务，则该事务包含结果的概率为“期望的置信度”。如果查看包含该先决条件的所有事务，然后从中选择一个随机事务，则该事务将包含结果的概率为“可信度”。“提升”本质上是两者之间的区别。使用提升，我们可以检查具有高置信度的两个项目之间的关系（如果置信度低，则提升本质上无关紧要）。

如果它们具有较高的置信度和较低的升力，那么我们仍然知道这些物品经常一起购买，但是我们不知道结果是否是由于先行情况而发生的，或者仅仅是偶然（也许它们经常一起购买是因为它们在一起都是非常受欢迎的产品，但彼此之间没有任何关系）。

但是，如果置信度和提升度都很高，那么我们可以合理地假设结果是由于前因而发生的。升力越高，两项之间的关系只是巧合的可能性就越低。在数学上：

提升=置信度/预期置信度

在我们的示例中，如果我们对规则的信心很高而提升率很低，那意味着很多客户都在购买面包和黄油，但是我们不知道这是否是由于面包和黄油之间存在某种特殊关系或者是否面包和黄油只是个别受欢迎的商品，它们经常一起出现在杂货车中，这只是一个巧合。如果我们对规则的信心很高并且提升率很高，则表明前者与结果之间的相关性非常强，这意味着我们可以合理地假设客户购买黄油是因为他们购买了面包。升力越高，我们对这种联系的信心就越大。

— 安德鲁
source