如何测试/证明数据为零膨胀?


9

我有一个问题,我认为应该很简单,但无法完全解决。我正在查看种子授粉,我有成簇开花的植物(n = 36),我从每棵植物中采样了3个花簇,并从每个簇中采样了6个种子荚(每个植物总计18个种子荚)。一个豆荚可以授粉0到4个种子。因此,数据是有上限的计数。我发现平均约有10%的种子被授粉,但在给定植物上的授粉量介于1%至30%之间,因此在分散的数据上,当然,在3棵植物上有4个缺失的簇重复,因此不完全对称。

我要问的问题是,这些数据是否支持这种植物需要传粉媒介进行结实的想法。

我发现一个豆荚中种子数量的分布看起来比有更多的0个授粉种子豆荚(16个中有6-9个豆荚)以及更多的3个和4个授粉种子豆荚(每个有2-4个)如果种群中的种子只是随机授粉,这是可以预期的。基本上,我认为这是零膨胀数据的经典示例,首先,昆虫完全不访问花朵(一个零生成器),如果这样做,则在另一个分布中对0-4的种子进行授粉。另一个假设是植物是部分自交的,然后可以预期每个种子都具有相同的授粉概率(此数据表明大约有0.1的机会,这意味着同一荚中的两粒种子有0.01的机会,依此类推) 。

但是我只是想证明数据最适合一种或另一种分布,而不是实际上对数据进行ZIP或ZINB处理。我认为我使用的任何方法都应考虑到授粉种子的实际数量和每棵植物上采样的豆荚的数量。我想到的最好的事情是做某种引导带事情,我只是将给定植物的授粉种子数量随机分配到我采样的种子荚数量中,进行10,000次,看看有多大可能性给定植物的实验数据来自该随机分布。

我只是觉得有些事情比蛮力自举要容易得多,但是经过几天的思考和搜索,我放弃了。我不能仅将其与Poisson分布进行比较,因为它是上限,它不是二项式的,因为我需要以某种方式生成期望的分布。有什么想法吗?而且我正在使用R,所以这里的建议(尤其是如何最优雅地将10,000个n球的随机分布生成到16个可以最多包含4个球的盒子中)。

ADDED 9/07/2012首先,感谢大家的关注和帮助。阅读答案,使我想重新表达我的问题。我要说的是,我有一个假设(种子现在我认为是无效的),即种子在豆荚之间随机授粉,而我的另一种假设是,至少有1个授粉种子的种子荚更可能种子的授粉种子数量多于随机过程所预期的数量。我提供了来自三个工厂的真实数据作为示例,以说明我在说什么。第一列是豆荚中已授粉种子的数量,第二列是具有该种子数的豆荚的频率。

植物1(总共3粒种子:4%授粉)

种子数:: pod.freq

0 :: 16

1 :: 1

2 :: 1

3 :: 0

4 :: 0

植物2(总共19粒种子:26%授粉)

num.seeds :: pod.freq

0 :: 12

1 :: 1

2 :: 1

3 :: 0

4 :: 4

植物3(总共16粒种子:22%授粉)

num.seeds :: pod.freq

0 :: 9

1 :: 4

2 :: 3

3 :: 2

4 :: 0

在植物1中,只有18个豆荚中的3个种子被授粉,一个豆荚中有1个种子,一个豆荚中有2个种子。考虑到将一个种子随机添加到吊舱的过程,前两个种子每个都放入自己的吊舱中,但是对于第三个种子,吊舱中有6个斑点可用,已经有一个种子,但16个吊舱中有64个斑点没有种子,因此这里有2个种子的豆荚的最高机率是6/64 = 0.094。这有点低,但不是很极端,所以我想说这种植物符合所有种子随机授粉的假设,发生授粉的机率约为4%。但是植物2对我来说看起来更极端,有4个豆荚完全授粉,但12个豆荚什么也没有。我不太确定如何直接计算该分布的几率(因此是我的自举想法),但是我猜想,如果每粒种子有大约25%的授粉几率,则这种分布的几率会随机发生。植物#3我真的不知道,我认为随机分配的0和3比预期的要多,但是我的直觉是,这种种子数量的分配比植物2的分配更有可能,并不会那么不可能。但是显然我想知道所有植物。我认为随机分配的0和3比一个预期的要多,但是我的直觉是,这种种子数量的这种分配比2号植物的分配更有可能,而且并非不可能。但是显然我想知道所有植物。我认为随机分配的0和3比一个预期的要多,但是我的直觉是,这种种子数量的这种分配比2号植物的分配更有可能,而且并非不可能。但是显然我想知道所有植物。

最后,我希望写一个这样的语句:“在种子荚中授粉的种子的分布适合(或不适合)这样的假设,即植物不只是部分自相容,而是需要拜访传粉者才能影响结实。(统计检验的结果)。” 这实际上只是我的前瞻性部分的一部分,在这里我正在谈论接下来要进行的实验,因此我并不希望这成为一件事或另一件事,但我想尽可能地了解自己。如果我无法使用该数据做我想做的事情,我也想知道!

起初我确实提出了一个相当广泛的问题,因为我很好奇是否有任何好的测试来证明数据是否应该首先进入零膨胀模型。我看过的所有示例似乎都在说–“看,这里有很多零,并且对此有一个合理的解释,所以让我们使用零膨胀模型”。那就是我现在在这个论坛上正在做的事情,但是我在上一章有一个经验,我使用泊松glm来计数数据,我的一位主管说:“不,glms太复杂和不必要,该数据应该进入列联表”,然后向我发送了由其昂贵的统计数据包生成的庞大列联表的数据转储,该数据包为我所有的因子提供了相同的p值,并且对三个有效数字进行了交互!!因此,我正在尝试使统计数据保持简洁明了,并确保我对它们足够了解,可以有力地捍卫自己的选择,而我认为我现在无法针对零膨胀模型做到这一点。对于上述数据,我既使用了准二项式(用于去除整个植物的假复制),又使用了混合模型来比较处理并回答我的主要实验问题,两者似乎都可以完成相同的工作,但是我还要今晚与ZINB一起玩,看看效果如何。我在想,如果我可以一开始就明确地证明该数据是高度聚集的(或零膨胀的),然后提供一个发生这种情况的良好生物学原因,那么我会更好地设置以随后拉出一个ZINB,而不是只需将其与准二项式/混合模型进行比较,然后争论,因为它可以提供更好的结果,这就是我应该使用的模型。我觉得我现在无法为零充气模型做任何事情。对于上述数据,我既使用了准二项式(用于去除整个植物的假复制),又使用了混合模型来比较处理并回答我的主要实验问题,两者似乎都可以完成相同的工作,但是我还要今晚与ZINB一起玩,看看效果如何。我在想,如果我可以一开始就明确地证明该数据是高度聚集的(或零膨胀的),然后提供一个发生这种情况的良好生物学原因,那么我会更好地设置以随后拉出一个ZINB,而不是只需将其与准二项式/混合模型进行比较,然后争论,因为它可以提供更好的结果,这就是我应该使用的模型。我觉得我现在无法为零充气模型做任何事情。对于上述数据,我既使用了准二项式(用于去除整个植物的假复制),又使用了混合模型来比较处理并回答我的主要实验问题,两者似乎都可以完成相同的工作,但是我还要今晚与ZINB一起玩,看看效果如何。我在想,如果我可以一开始就明确地证明该数据是高度聚集的(或零膨胀的),然后提供一个发生这种情况的良好生物学原因,那么我会更好地设置以随后拉出一个ZINB,而不是只需将其与准二项式/混合模型进行比较,然后争论,因为它可以提供更好的结果,这就是我应该使用的模型。对于上述数据,我既使用了准二项式(用于去除整个植物的假复制),又使用了混合模型来比较处理并回答我的主要实验问题,两者似乎都可以完成相同的工作,但是我还要今晚与ZINB一起玩,看看效果如何。我在想,如果我可以一开始就明确地证明该数据是高度聚集的(或零膨胀的),然后提供一个发生这种情况的良好生物学原因,那么我会更好地设置以随后拉出一个ZINB,而不是只需将其与准二项式/混合模型进行比较,然后争论,因为它可以提供更好的结果,这就是我应该使用的模型。对于上述数据,我既使用了准二项式(用于去除整个植物的假复制),又使用了混合模型来比较处理并回答我的主要实验问题,两者似乎都可以完成相同的工作,但是我还要今晚与ZINB一起玩,看看效果如何。我在想,如果我可以一开始就明确地证明该数据是高度聚集的(或零膨胀的),然后提供一个发生这种情况的良好生物学原因,那么我会更好地设置以随后拉出一个ZINB,而不是只需将其与准二项式/混合模型进行比较,然后争论,因为它可以提供更好的结果,这就是我应该使用的模型。

但是我不想在主要问题上分散注意力,我如何确定我的数据是否真的比从随机分布获得的零膨胀多呢?就我而言,答案是我真正感兴趣的,模型调整的可能好处是额外的好处。

再次感谢您的所有时间和帮助!

BWGIA,干杯


您为什么不想拟合零膨胀二项式模型?
atiretoo-恢复莫妮卡2012年

“部分自交”假说是“授粉者”假说专有的吗?如果是这样,那么您的第二个模型将只是概率为p且大小为4的二项式模型。
atiretoo-恢复莫妮卡2012年

Answers:


5

对我来说,这似乎是一个相对简单(非线性)的混合模型。您将种子豆荚嵌套到了嵌套在植物中的簇中,并且可以在每个阶段拟合具有随机效应的二项式模型:

    library(lme4)
    binre <- lmer( pollinated ~ 1 + (1|plant) + (1|cluster), data = my.data, family = binomial)

或使用协变量(如果有)。如果花朵自花授粉,那么由于植物本身的生存能力的自然可变性,您可能会看到一些轻微的效果。但是,如果响应中的大多数可变性是由说成簇的可变性驱动的,则您将有更强的证据表明昆虫可能只访问植物中选定的成簇的昆虫进行授粉。理想情况下,您将需要随机效应的非参数分布,而不是高斯分布:点质量为零(无昆虫访视)和点质量为正值-本质上这是迈克尔·切尔尼克(Michael Chernick)考虑的混合模型。您可以将它与GLLAMM Stata软件包配合使用,如果R中无法实现这一点,我会感到惊讶。

可能需要进行干净的实验,您希望将植物放在里面,或至少在没有昆虫进入的地方,并查看将要授粉的种子。这可能会以更加严格的方法回答您的所有问题。


我将尝试一下,我认为这将有助于自己回答自己的问题,但不确定如何说服他人。在第二部分中,您已经找到了我的位置,我正在尝试考虑这些数据如何为以后的更直接的实验提供信息。
BWGIA

1

在我看来,这是每种昆虫的混合分布。昆虫以概率p降落,概率为1-p,它降落并散布0到4个种子。但是,如果您没有关于昆虫是否降落在植物上的信息,则无法区分获得0的两种方法。因此,可以让p为0的概率,然后得到多项式分布(p1,p2, p3,p4),其中pi是在约束p1 + p2 + p3 + p4 = 1的条件下,给定昆虫授粉的i种子的概率。该模型具有五个未知数p,p1,p2,p3,p4,每个i的约束为0 = 0。有了足够的数据,您也许应该能够使用受限的最大似然法来估计这些参数。


我同意,但是问题不是要适合那个模型,而是要在两个不同的生物学假设下生成预测的分布。也许答案是拟合ZIB和与自学假设相匹配的“其他模型”,然后进行比较。
atiretoo-恢复莫妮卡2012年

@atiretoo模型没有为您提供可与假设分布进行比较的授粉种子数量的估计分布吗?
Michael R. Chernick

同意-如果您有两个假设的正确模型。
atiretoo-恢复莫妮卡2012年

1

这是对问题最后一部分的答案,即如何快速为传粉者假设生成所需的数据:

n = 16
max = 4
p1 = 0.1
p2 = 0.9
Y1 = rbinom(10000*n,1,p1)
Y2 = matrix(Y1*rbinom(10000*n,4,p2),ncol=16)

您也可以rzibinom()在VGAM软件包中使用。尽管我不确定您要怎么做。您有2个自由参数p1和p2,需要估计。为什么不使用零膨胀二项式模型从数据中估计它们呢?

您应该查看VGAM软件包,它尤其适合ZIB模型。实际上,您可以从VGAM函数中获得ZIB的预期分布dzibinom(),如果您知道访问和授粉的参数,则可以将其与观察到的分布进行比较。同样,您确实应该适合ZIB模型。

如果您的部分自交假说是昆虫授粉所独有的,那么预期的分布就只是二项式的,您可以使用二项式家族的glm或带有植物id的glmm作为随机效应来估计参数。但是,如果他们可以部分自我并接受昆虫授粉,那么您又需要两种二项分布的混合。在那种情况下,我将研究使用OpenBUGS或JAGS来使用MCMC拟合模型。

在将两个模型拟合到数据后,您可以使用AIC或BIC或您选择的其他度量标准,比较模型以查看哪个模型更合适。


感谢您的atiretoo,但是运行该代码似乎会生成随机数量的种子以及随机分布。我当时以为我想固定种子的种子(例如19粒种子,见下文),然后查看该确切种子的给定分布可能性
BWGIA

抱歉,发布时间过早,我的意思是“如上所述”,因为我已向问题中添加了一些信息。我对您对使用AIC比较模型的评论很感兴趣,是否可以在具有不同分布的模型(具有相同的响应变量)之间进行比较?我以为AIC比较仅在将术语添加/删除到模型中但指定了相同的分布族时才有效?
BWGIA

不,这是AIC相对于例如向后选择的主要优势。只要数据相同,即使没有嵌套,您也可以在不同模型之间比较AIC。您一定要小心,该软件正在计算似然性而不会遗漏常量,但是在单个函数中,您可以轻松比较非嵌套模型。
atiretoo-恢复莫妮卡2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.