我正在尝试处理逻辑回归中过度分散的概念。我已经读到过度分散是指观察到的响应变量方差大于二项式分布的预期值。
但是,如果一个二项式变量只能具有两个值(1/0),那么它如何具有均值和方差?
我可以通过x次数的Bernoulli试验来计算成功的均值和方差。但是我无法将只能具有两个值的变量的均值和方差的概念笼罩在脑海中。
任何人都可以提供以下内容的直观概述:
- 只能有两个值的变量的均值和方差的概念
- 只能有两个值的变量中的超分散概念
我正在尝试处理逻辑回归中过度分散的概念。我已经读到过度分散是指观察到的响应变量方差大于二项式分布的预期值。
但是,如果一个二项式变量只能具有两个值(1/0),那么它如何具有均值和方差?
我可以通过x次数的Bernoulli试验来计算成功的均值和方差。但是我无法将只能具有两个值的变量的均值和方差的概念笼罩在脑海中。
任何人都可以提供以下内容的直观概述:
Answers:
对于伯努利随机变量(过度分散没有意义。
在逻辑回归曲线的上下文中,您可以考虑通过较小的预测值范围进行“小切片”或分组,以实现二项式实验(也许我们在切片中有10个点,其中一定数量的点成功和失败)。即使我们并没有真正针对每个预测变量值进行多次试验,并且我们所关注的是比例而不是原始计数,但我们仍然希望这些“切片”中的每个比例都接近曲线。如果这些“切片”趋于远离曲线,则分布中的变化性太大。因此,通过对观察结果进行分组,您可以创建二项式随机变量的实现,而不是单独查看0/1数据。
下面的示例来自该网站上的另一个问题。假设蓝线代表预测变量范围内的预期比例。蓝色单元格指示观察到的实例(在这种情况下为学校)。这提供了过度分散怎样的图形表示可以关注一下。请注意,解释下面的图的单元格存在缺陷,但是它提供了一个概念,即过度分散如何表现出来。
正如其他人已经指出的那样,过度分散不适用于伯努利(0/1)变量,因为在那种情况下,均值必然确定方差。在逻辑回归的上下文中,这意味着如果结果是二进制的,则无法估计离散参数。(注意,这并不意味着您可以仅因为结果是二进制的而忽略观察值之间的潜在相关性!)
另一方面,如果您的结果是一组比例,则可以通过除以Pearson卡方统计量(或偏差)来估计分散参数(尽管通常大于1,但也可能小于1)。 )的剩余自由度。
请记住,具有纯二进制结果的逻辑回归只是更一般的逻辑回归模型的一种特殊情况,在该模型中,二项式指数可以超过一个(并且在不同观察值之间可能会有所不同)。因此,是否适合逻辑回归模型的问题与数据是否过于分散的问题无关。