平均值悖论-这叫什么?


22

我有一个数据集。说出观察值和变量:103

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

假设有客户在每个类别中购买了()或没有()。那里有个,因此这客户平均购买产品类别。1010A, B, C16101.6

请注意,客户可以购买A,B和C中的多个。

如果仅查看购买者A,则有客户购买了产品类别,因此平均为。591.8

B再次是或。9/51.8

C10/6=1.67.

所有这些都在以上1.6。

这似乎很奇怪。我了解这一点,但需要在下周向市场进行解释,因此需要帮助!

这东西叫什么?

我知道这不是辛普森的悖论。在我看来,它在逻辑上与Monty Hall问题和条件概率相似。


2
就个人而言,我不知道你在说什么。为什么不创建As,B和C的列联表以检查交叉购买模式?
Mike Hunter

3
我们有报告说“购买C的客户的价值超过平均水平-1.67 vs 1.6”,这是正确的,但是A和B的价值也超过平均水平。不可避免的问题将引起“所有客户的价值如何超过平均水平”?
James Adams

3
我认为他的难题是从表面上看,每个人都高于平均水平的沃比贡湖:P令为客户购买的类别/项目数。假设,和分别是购买类别A,B和C的指标。,和而Ç é [ X | ] = 1.8 ë [ X | ] = 1.8 ë [ X | C ^ ] = 1.67X一种CË[X一种]=1.8Ë[X]=1.8Ë[XC]=1.67Ë[X]=1.6
马修·冈恩

12
您可能要考虑互补集和维恩图。“购买A的客户”和“ 购买A的客户”这两个集合是不重叠的。但是您在问题中列出的集合是重叠的。当子集形成一个分区时,可以将总平均值计算为子集平均值的(加权)平均值。
GeoMatt22年

4
这与多数人幻想的悖论大致相似吗?就像任何人都可能连接到超级网络商一样,任何购买类别都可能包含超级购买者?(我称其为与许多人联系的超级网络人,而指称购买许多不同商品的超级购买者)
马修·冈恩

Answers:


28

如果子类别在较大的客户上重叠,则每个子类别的平均值可以高于总体平均值。

获得直觉的简单示例:

  • 假设是个人是否购买了A类商品的指标。一种
  • 假设是个人是否购买了B类商品的指标。
  • 为所购买物品的数量。X=一种+

一种一世1个0一世一世01个一世一世一世1个1个

该组个体的其中是真正的重叠组个体的其中是真实的。它们不是不相交的集合。一种

然后ë [ X | ] = 1.5ë [ X | ] = 1.5Ë[X]1.33Ë[X一种]=1.5Ë[X]=1.5

正确的陈述是:

P(A)E[XA]+P(B)E[XB]P(AB)E[XAB]=E[X]

231.5+231.5-1个32=1.3333

您不能简单地计算因为集合AB重叠,该表达式会将购买商品AB的人加倍P(A)E[XA]+P(B)E[XB]ABAB

幻觉/悖论的名字?

我认为这与社交网络中的多数幻觉悖论有关。

您可能只有一个伙计,可以结识/结交所有人。该人可能是百万分之一的人,但他将成为每个人的朋友之一。k

同样,您在这里购买了类别A和B的三分之二。但是,在类别A或B中,超级购买者是2个购买者中的1个。

极端情况:

让我们创建套乐透彩票。每套S i包括两张票:一张丢失票i和头奖中奖票。nSii

那么每组的平均奖金为JSi,其中J是头奖。每个类别的平均是WAY每票整体的平均奖金上述ĴJ2JJn+1

这与销售案例具有相同的概念动态。每个集合都以与每个类别A,B或C都包括大量购买者的相同方式包括头奖彩票。S一世

我的底线是基于不相交集的直觉,样本空间的完整划分不会延续到一系列重叠的集上。如果您以重叠的类别为条件,则每个类别都可以高于平均水平。

如果将样本空间和条件划分为不相交的集合,则类别必须取平均值为总体均值,但对于重叠的集合则不是这样。


3
谢谢!我认为重复计算是解释的关键。我认为这不一定是一些极端值的结果。我上面的示例数据集相当平凡,并且“高于平均水平的所有组”效果仍然发生。我猜想它会在大多数情况下发生。只是想知道它是否有名称或先前的示例。
詹姆斯·亚当斯

如果@JamesAdams所分析的数据有缺陷,则无法解释。我认为是这样。您不能拥有A,B和C类别的相互排斥和完整的集合,其中组平均值都高于所有三个类别的平均值,而又不违反数据分析的一些基本假设。根据你的情况,这是最有可能的,对于整体平均不同分母(例如,含有更多的受访者)从用于为A,B和C的手段估计的那些
迈克·亨特

2
@DJohnson当然,如果集合A,B和C对样本空间进行了分区,那么您是对的。我对问题和提供的“数据”(无论如何)的理解是,A,B和C是重叠的集合。如果A,B和C重叠,则组平均值都可以高于整体平均值(这是我的答案;最大的客户组重叠!)。OP并未说过内部矛盾。不过,您的“我们正在通过BS数据”检测器可能比我的要好,我同意询问有关数据/数字有效性的关键问题始终很重要。
马修·冈恩

是的,它们是重叠的集合。我的数据集有数百万的客户和12个类别。当我看到自己的平均值都高于整体平均值时,我认为它看起来很奇怪,但可以解释。我将10个obs和3个类别的示例集放在一起进行查看。我在这里只散布了1和0,结果也一样。我怀疑这种情况会在大多数计算此类平均值的数据集中发生。@Djohnson在我上面的示例中,我使用10作为总平均值的分母,对于As而言使用5,对于B而言使用5,对于C而言使用6。你能告诉我在这个例子中我违反了什么吗?
James Adams

“ 10”代表什么?3个类别的受访者净额?如果所有分母都使用相同的分母,那么平均值会怎样?它应该返回围绕总体均值波动的平均值。
Mike Hunter

10

我会称其为家庭规模悖论或类似的东西

举一个简单的例子,假设每个人都有一个伴侣,并且有一个由Poisson分配的参数的孩子:2

  • 每人平均可容纳2名儿童2
  • 每个有孩子的人的平均孩子人数为21e22.313
  • 每个人的平均同胞小组人数(算出他们的兄弟姐妹和他们自己)将为3

实际的人口统计数字和调查数字产生不同的数字,但模式相似

显而易见的悖论是,同胞群体的平均规模大于每个家庭的平均子女数量。在人口动态稳定的情况下,人们平均生下的孩子比父母少

原因是平均数是用于父母,家庭还是兄弟姐妹:对于大家庭有不同的权重。在您的示例中,按个人或按购买进行加权之间存在差异;实际上,您对特定购买的条件会提高您的条件平均值。


8

其他答案则是对正在发生的事情的过度思考。假设有一个产品和两个客户。一个人(一次)购买了该产品,而一个人没有。购买的平均产品数为0.5,但是如果仅查看购买该产品的客户,则平均数将升至1。

对我来说,这似乎不是悖论或反常理。购买产品的条件通常会提高平均购买的产品数量。


究竟。假设这3个类别中的每个类别的购买都没有高度相关,那么您要做的就是将其中一个类别中的购买率提高到100%之后计算平均值。比较一下可能更有用。B和C类的平均购买率:a)所有客户中的(11/20)b)购买A中的人(4/10)。我猜取决于您要显示/查找的内容。
konrad'4

2

这不仅是变相的“平均数”混淆(例如先前的stackexchange问​​题)吗?您的诱惑似乎是子样本平均值应最终取平均值为总体平均值,但这很少发生。

在经典的“平均数平均值”中,有人找到了N个互斥子集的平均值,然后惊讶地发现这些值并不等于总体平均值。计算平均值的唯一方法是,如果您的非重叠子集的大小相同。否则,您需要进行加权平均。

通过重叠子集,您的问题变得比传统的平均平均值混淆更为复杂,但在我看来,这只是一个经典的错误。在子集重叠的情况下,更难得出平均值等于总体平均值的子样本平均值。

在您的示例中,由于出现在多个子样本中(因此已经购买了许多商品)的用户将增加这些平均值。基本上,您要对每位大手笔进行多次计数,而只购买一件商品的节俭人只会遇到一次,因此您偏向更大的价值。这就是为什么您的特定子集具有高于平均值的原因,但是我认为这仍然只是“平均值”问题。

您还可以根据数据构造所有其他子集,其中子样本平均值取不同值。例如,让我们采用与您的子集有些相似的子集。如果将购买A 的人的一部分,则平均可获得7/5 = 1.4项。对于没有购买B 的子集,您平均也会获得1.4件物品。那些买C的人平均购买1.5件商品。这些均低于每位客户1.6项的人口平均水平。给定正确的数据集和正确的子集集合,您可能会得到重叠的子集,这些子集的平均值为总体平均值。但是,这在正常应用中并不常见。

是我自己,还是经过多次重复的“平均值”一词现在看起来很奇怪……希望我的回答对您有所帮助,如果我为您破坏了“平均值”一词,对不起!


谢谢!关于不重叠的相同大小分区的评论在我脑海中得到了澄清。我希望在介绍这些数字时可以说:“所有类别的平均值都高于整体平均值,但这就是Blahblah悖论”。就像您说“辛普森悖论!,常春藤盟性别歧视!” 然后跑出房间。(有时候你们都这样做吗?)很想对他们说“那是因为这些是大小不同的重叠子集”,但不要认为这会成功!
James Adams

1
哈哈,够公平的。我之前并没有完全了解上下文-我是一名天体物理学研究生,所以我对上下文不太熟悉。您可以说一句简短的话:“所有子集平均值都高于总体平均值,因为它们使我们使子集偏向更大值的方式。” 我不会提及平均值名称的平均值,因为它并不是众所周知的,而且您的情况就像它的概括。我还会尝试找到一个同义词来替换类别词-通常,我认为该词暗示着互斥的子集。
tbell

语义满足感是一种心理现象,其中重复导致单词或短语暂时失去对听者的意义,然后听者将语音视为重复的无意义的声音。
帕特里克

1

由于问题是“ 我理解但需要向市场解释 ”,因此OP似乎关心外行如何解释这些事实-(而不是事实是否真实,或如何证明它们是事实)。该问题引用了10个产品类别(AJ),那么该示例如何:

[与营销小组会面]
OP:因此,正如您在此处看到的那样,购买A,B和C的客户的价值都比平均水平高。
莱曼:等等?!每个人如何都能高于平均水平?
OP:好问题。本幻灯片重点介绍A,B和C的客户,但未显示其他低绩效的群体。例如,类别D和G的客户各自的价值约为平均值的一半。

这应该平息每个人关于“一切都高于平均水平”的内部bs警报。


这不是回答问题的方法。
Michael R. Chernick

他的问题已经回答,但是没有人解决他的问题。
帕特里克

我的评论只与帕特里克的答案有关。
Michael R. Chernick

我看不出有任何规则反对不同的回答方式。报告(真实或想象中的)讨论和对话是从苏格拉底开始(以及据我所知在他之前)思考问题的悠久历史。
尼克·考克斯

但是,这种解释实际上是错误的。即使没有其他类别(DJ),观察结果仍然正确:即使子集覆盖整个集合,重叠子集的平均值也可能都高于整个集合的平均值。
isarandi

0

在这里忽略其他答案。这实际上根本不是悖论。每个人似乎都忽略了这里的实际问题是您误会了你实际上是在寻找可能性。实际上,这里有两个完全不同的平均值和统计数据,在您提出的示例(营销)中都有各自的用途和解释!

首先是每个客户购买的平均产品数量。因此,平均而言,一位客户购买1.6件商品。当然,顾客只能接受0.6种产品(假设它不是像米或谷物那样具有连续测量值的产品)。

其次,有购买特定产品的平均客户数量。听起来很奇怪吧?因此,平均而言,一个产品有5.33333333 ...客户购买该产品。但是,这是不同的。我们在这里描述的不是购买的产品数量(只有三个!),而是实际购买该产品的人数。

这样想两个值:如果只有一个客户或只有一个产品,这两个值将代表什么?毕竟,单个数据点的平均值就是给定的数据点。

或更妙的是,考虑一下图表,就好像它给了您购买产品所需的美元金额。显然,单个客户花费的平均金额将远远少于大型公司(甚至只是一家小企业)提供的产品所赚取的平均金额。我相信您在讨论公司的福祉时,可以想到使用两种价值观的好方法。

当您向市场营销人员解释时,请像我所说的那样向他们解释。这不是一个悖论。这只是一个完全不同的统计信息。这里唯一的问题是注意到实际上有两种不同的读取图表的方式(即,每件商品购买的人数与每人购买的商品数量)。

tl; dr您所描述的第一件事是个人客户愿意花费购买产品的平均金额。第二个是公众对特定产品的平均需求。我敢肯定,您现在就能明白为什么两者肯定不是同一件事。这样比较它们只会给您垃圾信息。


编辑

看来问题实际上是在询问购买某种产品a,b或c的客户的平均花费。好的。这实际上只是计算中的错误。我不会称其为悖论。这实际上只是一个微妙的愚蠢。

看你的专栏。列之间共享某些人。假设您进行了适当的加权平均。您仍在加人两次。这意味着平均值将包含值大于或等于2的额外人员。现在您的平均值是多少?是1.6!本质上,您的平均值如下所示:

一世=0ñv一种üËØFPË[RsØñ一世v一种üËØFPË[RsØñ一世ñ

那绝对不是正确的公式。尽管假设互斥,这是一个加权平均值,您可以根据自己的状况进行调整以获取真实的平均值。

一世=0ññübË[RØFPËØpËüÿ一世ñG一世一种vË[R一种GË小号pËñŤÿPË[RsØñüÿ一世ñG一世ñ

无论哪种方式,您都会得到混乱的平均值。一个错误是忽略了加权平均值的需要,因为一个类别的平均值具有更大的“权重”。就像密度。一个价值代表人的价值。另一个问题是重复添加,这会扭曲平均值。不过,我不称这两个“悖论”。一旦我看到您在做什么,对我来说似乎很明显为什么不起作用。加权平均值对于它的需求有些不言而喻,我想现在您已经看到您多次添加了值……这是行不通的。您基本上是取其值的平方的平均值。


我认为情况并非如此。我对有多少人购买特定产品不感兴趣。我对客户购买了A总共购买了多少产品感兴趣?
James Adams

@JamesAdams还好吧。在那种情况下,这个问题就更加微不足道了。您仅取样本的平均值。理论上,如果您对B和C进行相同操作,则最终平均值将不是实际平均值。但是,这仅仅是由于样本不相等。就这样。实际上,我认为没有理由对一个人显而易见。实际上,有一种解决方案可以固定平均值以获取正确的平均值。这称为加权平均值,基本上,您将使用该组中的人数“加权”每个子平均值。说得通?
大鸭

@JamesAdams,我知道您对此不感兴趣。您算的是数学上的自相矛盾,使用该平均值尝试计算每人的平均产品数量。这就是为什么我在这个答案中强调指出,另一个统计数据存在第二个平均值,而您的“错误”是试图将其统计为完全不同的平均值。
大鸭
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.