在结合了两个分布的模型中测量拟合优度


9

我有要建模的双峰数据,并且峰之间有足够的重叠,因此无法独立对待它们。数据的直方图可能看起来像这样:

替代文字

为此,我创建了两个模型:一个模型使用两个Poisson分布,另一个模型使用两个负二项式分布(以解决过度分散问题)。哪种模型可以更准确地确定适合数据的合适方法是什么?

我最初的想法是,我可以使用Kolmogorov-Smirnov检验将每个模型与数据进行比较,然后进行似然比检验,看是否一个模型更合适。这有意义吗?如果是这样,我不确定如何执行似然比测试。卡方是否合适,我有多少自由度?

如果有帮助,这些模型的一些(非常简化的)R代码可能看起来像这样:

## inital data points
a <- read.table("data")

#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)

#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)

#here's where I'd do some sort of likelihood ratio test
# . . .

编辑:这是一张可以解释我更适合的数据和分布的图像。从可视化中可以完全看出,第二个模型(使用负二项式dist来考虑过度分散)是一个更好的拟合。不过,我想定量地展示一下。 替代文字

(红色-数据,绿色-型号)


您是否知道每个bin中值的概率分布?y轴标签使我认为这可能是泊松或多项式?(假设模型为您提供了每个
区间

数据本质上是从两个泊松过程中提取的,但是存在一些我无法纠正的隐藏变量,从而导致过度分散。因此,负二项式绝对是更好的模型。(请参阅上面添加的新图像/文本)。我需要证明我的nb模型在数量上更合适。
chrisamiller

1
实际值与预测值之间的均方误差之类的度量怎么样?

hrmm-我喜欢这个想法,Srikant。这比我想的要简单得多,但仍然有意义。在下面给出一个答案,这样我就可以相信它,并以您的方式发送一些代表。我仍然对听到其他方法感兴趣,但是这可能暂时可行。
chrisamiller

Answers:


4

您可以在实际值与预测值之间使用诸如均方误差之类的指标来比较两个模型。


1
尽管Glen_b的回答帮助我了解了更多信息,但这是针对我的特定情况的正确答案。因此,对他有更多的支持,为Srikant接受了答案。每个人都赢了-谢谢大家。
chrisamiller

8

您无法直接比较它们,因为负二项式有更多参数。确实,泊松在“负二项式”中是“嵌套”的,因为这是一个极限情况,因此NegBin 总是比泊松更合适。但是,这可以考虑进行似然比检验,但是泊松位于负二项式参数空间的边界可能会影响检验统计量的分布。

无论如何,即使参数数量的差异不是问题,您也不能直接进行KS测试,因为您已经估计了参数,并且KS特别适用于指定了所有参数的情况。您使用引导程序的想法可以解决此问题,但不能解决第一个问题(参数数量不同)

我还将考虑对拟合优度进行平滑测试(例如,参见Rayner和Best的书),例如,这可能导致将卡方拟合优度检验划分为感兴趣的组件(测量与Poisson模型的偏差) (在这种情况下)-拿出来说是四阶或六阶,这将导致NegBin替代品具有良好的性能。

(编辑:您可以通过卡方检验比较Poisson和negbin拟合,但功效较低。对卡方进行分区,只看第一个4-6个分量,如使用平滑测试可能会更好)


谢谢。这澄清了很多事情,并提出了一系列新问题,我将不得不对其进行一些研究。我想我的主要问题是,您的意思是说更简单的事情(例如仅求均方根误差)不是解决此问题的有效方法吗?我会承认它可能不那么健壮,并且不会给我p值,但是当我尝试查找您所参考的书的副本时,我可以很快地做到这一点。任何想法将不胜感激。
chrisamiller

2
假设您有一组点(x,y),并且正在考虑是否适合直线或二次方。如果比较RMSE,则二次方将始终胜过直线,因为该线是二次方,且一个参数设置为零:如果参数的最小二乘估计恰好为零(连续响应的可能性为零),则为平局,其他所有情况下输掉。泊松与负二项式是一样的-一个自由的负二项式至少可以和一个自由的泊松一样适合。
Glen_b-恢复莫妮卡

很好的解释-我明白你现在在说什么。我认为我的情况有些不同,因为我不是在进行回归以获得拟合,而是将额外的NB参数基于外部信息(我希望var / mean比率为N)。由于泊松是N = 1的特例,因此我真正要比较的是N的选择。我同意,如果我进行回归分析,则NB总是能够找到更好的拟合度,因为它的约束较少。在我的情况下,我要为N预先选择一个值,当然可以选择一些疯狂的N值,这会使拟合度变差。
chrisamiller's

我当然会继续阅读您建议的适合度的平滑测试。感谢您提供的信息。
chrisamiller's

很抱歉没有意识到数据没有进入过分散参数的选择。这样做可能有一些争议,但如果外部估算可能反映出您实际观察到的结果,则根据情况,NB仍可能具有一定优势。
Glen_b-恢复莫妮卡2010年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.