逻辑回归中的过度分散


14

我正在尝试处理逻辑回归中过度分散的概念。我已经读到过度分散是指观察到的响应变量方差大于二项式分布的预期值。

但是,如果一个二项式变量只能具有两个值(1/0),那么它如何具有均值和方差?

我可以通过x次数的Bernoulli试验来计算成功的均值和方差。但是我无法将只能具有两个值的变量的均值和方差的概念笼罩在脑海中。

任何人都可以提供以下内容的直观概述:

  1. 只能有两个值的变量的均值和方差的概念
  2. 只能有两个值的变量中的超分散概念

1
ÿ01个ÿ

很好的说,我相信平均值= 0.5,标准偏差= 0.11。
卢西亚诺

假设我的响应变量成功了100次,失败了5次。这可能会过度分散吗?
卢西亚诺

luciano,您需要多个实验实现来确定它是否过于分散。
破坏者

Answers:


10

ñpññ+1个01个23ñ

对于伯努利随机变量(过度分散没有意义。ñ=1个

在逻辑回归曲线的上下文中,您可以考虑通过较小的预测值范围进行“小切片”或分组,以实现二项式实验(也许我们在切片中有10个点,其中一定数量的点成功和失败)。即使我们并没有真正针对每个预测变量值进行多次试验,并且我们所关注的是比例而不是原始计数,但我们仍然希望这些“切片”中的每个比例都接近曲线。如果这些“切片”趋于远离曲线,则分布中的变化性太大。因此,通过对观察结果进行分组,您可以创建二项式随机变量的实现,而不是单独查看0/1数据。

下面的示例来自该网站上的另一个问题。假设蓝线代表预测变量范围内的预期比例。蓝色单元格指示观察到的实例(在这种情况下为学校)。这提供了过度分散怎样的图形表示可以关注一下。请注意,解释下面的图的单元格存在缺陷,但是它提供了一个概念,即过度分散如何表现出来。

过度分散的例子


1
但是我对逻辑回归中的过度分散感兴趣。对于逻辑回归中预测变量的每个值,没有n个试验,只有一个试验。一次审判的结果是成功还是失败
luciano

我只是添加了一段,以解决线性回归背景下过度分散的直觉。
破坏者

1
Underminer,我试图想像一下您的意思是:“如果这些“切片”趋向于远离曲线,则说明分布中存在太多可变性”。这就是我的意思:曲线上有0.1-0.3的成功几率有很多成功,曲线上有0.7-0.9的成功几率很很多失败。这是您的意思吗,这是否代表过度分散?
卢西亚诺

1
@luciano这是正确的想法。但是请记住,必须先在曲线的上方和下方之间保持平衡的“切片”,才能使拟合首先发生。因此,说大约0.7的切片成功太多(也许100%),而下一个大约0.75的切片成功太少(50%),然后0.80太多(100%),等等,这可能更现实。观察到的差异比预期的要多。
破坏者

我已经解释清楚了
卢西亚诺

7

正如其他人已经指出的那样,过度分散不适用于伯努利(0/1)变量,因为在那种情况下,均值必然确定方差。在逻辑回归的上下文中,这意味着如果结果是二进制的,则无法估计离散参数。(注意,这并不意味着您可以仅因为结果是二进制的而忽略观察值之间的潜在相关性!)

另一方面,如果您的结果是一组比例,则可以通过除以Pearson卡方统计量(或偏差)估计分散参数(尽管通常大于1,但也可能小于1)。 )的剩余自由度。

请记住,具有纯二进制结果的逻辑回归只是更一般的逻辑回归模型的一种特殊情况,在该模型中,二项式指数可以超过一个(并且在不同观察值之间可能会有所不同)。因此,是否适合逻辑回归模型的问题与数据是否过于分散的问题无关。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.