我有一个问题,我认为应该很简单,但无法完全解决。我正在查看种子授粉,我有成簇开花的植物(n = 36),我从每棵植物中采样了3个花簇,并从每个簇中采样了6个种子荚(每个植物总计18个种子荚)。一个豆荚可以授粉0到4个种子。因此,数据是有上限的计数。我发现平均约有10%的种子被授粉,但在给定植物上的授粉量介于1%至30%之间,因此在分散的数据上,当然,在3棵植物上有4个缺失的簇重复,因此不完全对称。
我要问的问题是,这些数据是否支持这种植物需要传粉媒介进行结实的想法。
我发现一个豆荚中种子数量的分布看起来比有更多的0个授粉种子豆荚(16个中有6-9个豆荚)以及更多的3个和4个授粉种子豆荚(每个有2-4个)如果种群中的种子只是随机授粉,这是可以预期的。基本上,我认为这是零膨胀数据的经典示例,首先,昆虫完全不访问花朵(一个零生成器),如果这样做,则在另一个分布中对0-4的种子进行授粉。另一个假设是植物是部分自交的,然后可以预期每个种子都具有相同的授粉概率(此数据表明大约有0.1的机会,这意味着同一荚中的两粒种子有0.01的机会,依此类推) 。
但是我只是想证明数据最适合一种或另一种分布,而不是实际上对数据进行ZIP或ZINB处理。我认为我使用的任何方法都应考虑到授粉种子的实际数量和每棵植物上采样的豆荚的数量。我想到的最好的事情是做某种引导带事情,我只是将给定植物的授粉种子数量随机分配到我采样的种子荚数量中,进行10,000次,看看有多大可能性给定植物的实验数据来自该随机分布。
我只是觉得有些事情比蛮力自举要容易得多,但是经过几天的思考和搜索,我放弃了。我不能仅将其与Poisson分布进行比较,因为它是上限,它不是二项式的,因为我需要以某种方式生成期望的分布。有什么想法吗?而且我正在使用R,所以这里的建议(尤其是如何最优雅地将10,000个n球的随机分布生成到16个可以最多包含4个球的盒子中)。
ADDED 9/07/2012首先,感谢大家的关注和帮助。阅读答案,使我想重新表达我的问题。我要说的是,我有一个假设(种子现在我认为是无效的),即种子在豆荚之间随机授粉,而我的另一种假设是,至少有1个授粉种子的种子荚更可能种子的授粉种子数量多于随机过程所预期的数量。我提供了来自三个工厂的真实数据作为示例,以说明我在说什么。第一列是豆荚中已授粉种子的数量,第二列是具有该种子数的豆荚的频率。
植物1(总共3粒种子:4%授粉)
种子数:: pod.freq
0 :: 16
1 :: 1
2 :: 1
3 :: 0
4 :: 0
植物2(总共19粒种子:26%授粉)
num.seeds :: pod.freq
0 :: 12
1 :: 1
2 :: 1
3 :: 0
4 :: 4
植物3(总共16粒种子:22%授粉)
num.seeds :: pod.freq
0 :: 9
1 :: 4
2 :: 3
3 :: 2
4 :: 0
在植物1中,只有18个豆荚中的3个种子被授粉,一个豆荚中有1个种子,一个豆荚中有2个种子。考虑到将一个种子随机添加到吊舱的过程,前两个种子每个都放入自己的吊舱中,但是对于第三个种子,吊舱中有6个斑点可用,已经有一个种子,但16个吊舱中有64个斑点没有种子,因此这里有2个种子的豆荚的最高机率是6/64 = 0.094。这有点低,但不是很极端,所以我想说这种植物符合所有种子随机授粉的假设,发生授粉的机率约为4%。但是植物2对我来说看起来更极端,有4个豆荚完全授粉,但12个豆荚什么也没有。我不太确定如何直接计算该分布的几率(因此是我的自举想法),但是我猜想,如果每粒种子有大约25%的授粉几率,则这种分布的几率会随机发生。植物#3我真的不知道,我认为随机分配的0和3比预期的要多,但是我的直觉是,这种种子数量的分配比植物2的分配更有可能,并不会那么不可能。但是显然我想知道所有植物。我认为随机分配的0和3比一个预期的要多,但是我的直觉是,这种种子数量的这种分配比2号植物的分配更有可能,而且并非不可能。但是显然我想知道所有植物。我认为随机分配的0和3比一个预期的要多,但是我的直觉是,这种种子数量的这种分配比2号植物的分配更有可能,而且并非不可能。但是显然我想知道所有植物。
最后,我希望写一个这样的语句:“在种子荚中授粉的种子的分布适合(或不适合)这样的假设,即植物不只是部分自相容,而是需要拜访传粉者才能影响结实。(统计检验的结果)。” 这实际上只是我的前瞻性部分的一部分,在这里我正在谈论接下来要进行的实验,因此我并不希望这成为一件事或另一件事,但我想尽可能地了解自己。如果我无法使用该数据做我想做的事情,我也想知道!
起初我确实提出了一个相当广泛的问题,因为我很好奇是否有任何好的测试来证明数据是否应该首先进入零膨胀模型。我看过的所有示例似乎都在说–“看,这里有很多零,并且对此有一个合理的解释,所以让我们使用零膨胀模型”。那就是我现在在这个论坛上正在做的事情,但是我在上一章有一个经验,我使用泊松glm来计数数据,我的一位主管说:“不,glms太复杂和不必要,该数据应该进入列联表”,然后向我发送了由其昂贵的统计数据包生成的庞大列联表的数据转储,该数据包为我所有的因子提供了相同的p值,并且对三个有效数字进行了交互!!因此,我正在尝试使统计数据保持简洁明了,并确保我对它们足够了解,可以有力地捍卫自己的选择,而我认为我现在无法针对零膨胀模型做到这一点。对于上述数据,我既使用了准二项式(用于去除整个植物的假复制),又使用了混合模型来比较处理并回答我的主要实验问题,两者似乎都可以完成相同的工作,但是我还要今晚与ZINB一起玩,看看效果如何。我在想,如果我可以一开始就明确地证明该数据是高度聚集的(或零膨胀的),然后提供一个发生这种情况的良好生物学原因,那么我会更好地设置以随后拉出一个ZINB,而不是只需将其与准二项式/混合模型进行比较,然后争论,因为它可以提供更好的结果,这就是我应该使用的模型。我觉得我现在无法为零充气模型做任何事情。对于上述数据,我既使用了准二项式(用于去除整个植物的假复制),又使用了混合模型来比较处理并回答我的主要实验问题,两者似乎都可以完成相同的工作,但是我还要今晚与ZINB一起玩,看看效果如何。我在想,如果我可以一开始就明确地证明该数据是高度聚集的(或零膨胀的),然后提供一个发生这种情况的良好生物学原因,那么我会更好地设置以随后拉出一个ZINB,而不是只需将其与准二项式/混合模型进行比较,然后争论,因为它可以提供更好的结果,这就是我应该使用的模型。我觉得我现在无法为零充气模型做任何事情。对于上述数据,我既使用了准二项式(用于去除整个植物的假复制),又使用了混合模型来比较处理并回答我的主要实验问题,两者似乎都可以完成相同的工作,但是我还要今晚与ZINB一起玩,看看效果如何。我在想,如果我可以一开始就明确地证明该数据是高度聚集的(或零膨胀的),然后提供一个发生这种情况的良好生物学原因,那么我会更好地设置以随后拉出一个ZINB,而不是只需将其与准二项式/混合模型进行比较,然后争论,因为它可以提供更好的结果,这就是我应该使用的模型。对于上述数据,我既使用了准二项式(用于去除整个植物的假复制),又使用了混合模型来比较处理并回答我的主要实验问题,两者似乎都可以完成相同的工作,但是我还要今晚与ZINB一起玩,看看效果如何。我在想,如果我可以一开始就明确地证明该数据是高度聚集的(或零膨胀的),然后提供一个发生这种情况的良好生物学原因,那么我会更好地设置以随后拉出一个ZINB,而不是只需将其与准二项式/混合模型进行比较,然后争论,因为它可以提供更好的结果,这就是我应该使用的模型。对于上述数据,我既使用了准二项式(用于去除整个植物的假复制),又使用了混合模型来比较处理并回答我的主要实验问题,两者似乎都可以完成相同的工作,但是我还要今晚与ZINB一起玩,看看效果如何。我在想,如果我可以一开始就明确地证明该数据是高度聚集的(或零膨胀的),然后提供一个发生这种情况的良好生物学原因,那么我会更好地设置以随后拉出一个ZINB,而不是只需将其与准二项式/混合模型进行比较,然后争论,因为它可以提供更好的结果,这就是我应该使用的模型。
但是我不想在主要问题上分散注意力,我如何确定我的数据是否真的比从随机分布获得的零膨胀多呢?就我而言,答案是我真正感兴趣的,模型调整的可能好处是额外的好处。
再次感谢您的所有时间和帮助!
BWGIA,干杯