具有大数据的泊松回归:更改度量单位是否错误?


17

由于泊松分布中的阶乘,当观测值较大时,估计泊松模型(例如,使用最大似然)变得不切实际。因此,例如,如果我试图估计一个模型来解释给定年份的自杀数量(仅提供年度数据),并且说每年有数千个自杀,那么表达数百种自杀是否错误? ,则2998将为29.98〜= 30?换句话说,更改度量单位以使数据易于管理是否错误?

Answers:


15

当您处理带有\ lambda(其参数)较大值的Poisson分布时,通常对Poisson分布使用正态近似。

正如该站点所提到的,当\ lambda超过20时,可以使用常规近似值,随着\ lambda变得更高,近似值会提高。

泊松分布仅在由非负整数组成的状态空间上定义,因此重新缩放和舍入将在数据中引入奇数。

使用正常的约。大型泊松统计数据非常普遍。


6

在泊松的情况下,这很不好,因为计数就是计数-它们的单位是一个单位。另一方面,如果您使用某些高级软件(如R),则其Poisson处理功能将意识到这么大的数字,并会使用一些数字技巧来处理它们。

显然,我同意法线逼近是另一种好方法。


3

大多数统计软件包都具有直接计算阶乘的自然对数的函数(例如R中的lfactorial()函数,Stata中的lnfactorial()函数)。如果需要,这使您可以将常数项包括在对数似然中。


另外,对于n> = 0 ,n!= Gamma(n+1)。因此,Gamma如果需要计算阶乘(如果您要计算对数似然,则尝试寻找对数)
And

3

恐怕你做不到。如@Baltimark所述,λ大时,分布将具有更正常的形状(对称),而按比例缩小,则将不再是泊松分布。在R中尝试以下代码:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

结果如下:

在此处输入图片说明

您可以看到缩小后的泊松(红线)与泊松分布完全不同。


1

使用最大似然时,您可以简单地忽略“阶乘”。这是您自杀示例的原因。让:

λ:是每年的预期自杀次数

k i:是第一年的自杀人数。

然后,您可以将对数可能性最大化为:

LL = ∑(k i log(λ)-λ-k i!)

最大化以上等价于将以下最大化为k i!是一个常量:

LL ' = ∑(k i log(λ)-λ)

可以解释为什么析因是一个问题吗?我想念什么吗?


如果您要做的只是从一组观察值中估计参数,则不会丢失任何内容。那绝对是OP问题的主要思想。但是,她也普遍询问(如果不是严格的话)“如何估计泊松模型”。也许她想在特定点上了解pdf的价值。在这种情况下,通常约 如果观察值足够大以至于无法计算阶乘,则可能最好比将参数和观察值缩放100或其他大小更好。
巴尔的摩

1
@Srikant,您是对的,估计参数的阶乘不是问题,但通常,您将需要给定模型的似然值,因此必须使用阶乘。同样,对于假设检验(例如,似然比检验),您将需要似然值。
薇薇

@Baltimark:是的,我想大致了解一下更改泊松的计量单位是否有效。我被问到这个问题,我不知道该说些什么。
维维

@Vivi:我不确定为什么要用k_i计算可能性!如大多数应用中所包括的(例如,似然比检验,贝叶斯估计),常数将无关紧要。无论如何,我认为您不能按照您的建议重新缩放。如果我有其他疑问,我将更新我的答案。

@Srikant,我明白您的意思,但是默认情况下某些软件(例如Eviews)包括此功能,无论您是否喜欢,它都是一个大问题。我想我真的是在解释为什么可以做到或不能做到这一点,而不是绕开它,但是讨论还是很有趣和有启发性的:)
Vivi 2010年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.