我有要建模的双峰数据,并且峰之间有足够的重叠,因此无法独立对待它们。数据的直方图可能看起来像这样:
为此,我创建了两个模型:一个模型使用两个Poisson分布,另一个模型使用两个负二项式分布(以解决过度分散问题)。哪种模型可以更准确地确定适合数据的合适方法是什么?
我最初的想法是,我可以使用Kolmogorov-Smirnov检验将每个模型与数据进行比较,然后进行似然比检验,看是否一个模型更合适。这有意义吗?如果是这样,我不确定如何执行似然比测试。卡方是否合适,我有多少自由度?
如果有帮助,这些模型的一些(非常简化的)R代码可能看起来像这样:
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
编辑:这是一张可以解释我更适合的数据和分布的图像。从可视化中可以完全看出,第二个模型(使用负二项式dist来考虑过度分散)是一个更好的拟合。不过,我想定量地展示一下。
(红色-数据,绿色-型号)