零膨胀连续数据的假设检验


10

非常感谢您对以下问题的建议:

我有一个很大的连续数据集,其中有很多零(〜95%),我需要找到最佳方法来测试它的某些子集是否“有趣”,即,似乎不是从与其余的部分。零膨胀来自以下事实:每个数据点均基于具有零和真实零的计数测量值,但是结果是连续的,因为它考虑了由计数加权的其他一些参数(因此,如果计数为零,则结果为也是零)。

最好的方法是什么?我觉得Wilcoxon甚至蛮力置换测试都不足够,因为它们被这些零值所扭曲。专注于非零测量也会删除非常重要的真实零。计数数据的零膨胀模型已经很好地开发,但是不适合我的情况。

我考虑过将Tweedie分布拟合到数据,然后在response = f(subset_label)上拟合glm。从理论上讲,这似乎是可行的,但我想知道(a)这是否过大,以及(b)是否仍隐含地假设所有零均为样本零,即是否以与排列相同的方式(最多)被偏置?

直观地讲,听起来好像有某种层次结构设计,该结构结合了基于零比例的二项式统计量,例如,基于非零值(或者更好的是,非零值再加上零的一部分)计算出的Wilcoxon统计量零)。听起来像贝叶斯网络...

希望我不是第一个遇到这个问题的人,所以如果您能向我指出合适的现有技术,将不胜感激。

非常感谢!


更新。到目前为止,我发现本文中的寻址与我相似的问题:maths.otago.ac.nz/home/downloads/david_fletcher/...
a11msp

考虑到零构成绝对多数,我想知道这种极其简化的近似是否有意义:1)找到每个子集中零的比例。2)假设在零个数最少的子集中,所有零为真。3)从每个子集中,删除等于“最富零”数据集中的零比例的零比例。4)在修改后的数据集上运行标准非参数统计信息。
2011年

您第一个评论中指向该论文的超链接似乎已失效。您可以提供引用吗?
coip

Answers:


9

@msp,我想您正在该附件中查看一个两阶段模型(我没有时间阅读它),但是零膨胀的连续数据是我经常使用的类型。要将参数模型拟合到此数据(以进行假设检验),可以拟合两个阶段,但随后有两个模型(Y是目标,X是协变量):P(Y = 0 | X)和P(Y | X; Y> 0)。您必须使用模拟将这些“组合”在一起。Gelmans的(和R中的arm包)显示了此精确模型的过程(使用对数链接的对数回归和普通线性回归)。

我看到的另一个更好的选择是拟合零膨胀的伽玛回归,该回归与上面相同(但伽玛是误差而不是高斯的),您可以将它们放在一起进行P(Y | X)的假设检验。我不知道如何在R中执行此操作,但是您可以在SAS NLMIXED中执行此操作。看到这篇文章,它运作良好。


@B_Miner,非常感谢您的回答,对不起,您没有足够的评分给您投票...我将看一下链接!我对条件模型的唯一担心是,它们假定零不能属于第二个(连续)分量,对吗?我的设置是否有点像混合模型?你怎么看?
2011年

我现在复制了Gelman书中提出的两阶段方法。如果将subset_factor(具有25个级别)用作子集标签,则第一步是fit1 = glm(response〜subset_factor,family = binomial);第二步是fit2 = lm(response〜subset_factor,subset = response> 0)。然后,我可以按照他们描述的方式进行仿真,以获得每个因子水平的拟合响应值的分布。但是,我仍然不确定如何将其转换为我所需要的,这是(a)系数不为零的概率,以及(b)不同因子水平下系数之间差异的显着性。
a11msp 2011年

两阶段方法(两个独立模型的Gelman方法)假定两个总体,即零和以上。
B_Miner 2011年

...因此,简单地说一下,如果在Gelman方法的两个模型中,某个因素水平的影响是显着的(并且与其他因素水平的影响显着不同),那么总体上是显着的吗?
2011年

1
是的,两阶段方法(两个独立模型的戈尔曼方法)假设两个总体,即零和大于零。假设检验,您能否根据输入水平不同的预测值来构成它们并构建经验模型?与每个模拟相关的置信区间?对于系数!= 0的假设检验,您需要对两个模型分别进行检验。
B_Miner 2011年

2

市场营销测试中使用了与Fletcher论文类似的方法,在该方法中,我们可以将干预措施(例如广告)的影响任意地分为(a)购买品牌数量的变化(即零比例)和(b)购买乐队的频率发生变化(完全根据销售情况进行销售)。这是一种可靠的方法,在Fletcher讨论的营销环境和生态环境中具有概念上的意义。实际上,这可以扩展为(c)每次购买的大小变化。


谢谢!我想知道您是否知道现有的r实现?
2011年

1

您可以处理未知的零的确切数目,但是将其限制在0和观察到的零数目之间。可以肯定地使用模型的贝叶斯公式来处理。也许还可以调整多重插补方法以适当地改变零观测值的权重(0到1之间)…

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.