零膨胀连续数据的假设检验

非常感谢您对以下问题的建议：

我有一个很大的连续数据集，其中有很多零（〜95％），我需要找到最佳方法来测试它的某些子集是否“有趣”，即，似乎不是从与其余的部分。零膨胀来自以下事实：每个数据点均基于具有零和真实零的计数测量值，但是结果是连续的，因为它考虑了由计数加权的其他一些参数（因此，如果计数为零，则结果为也是零）。

最好的方法是什么？我觉得Wilcoxon甚至蛮力置换测试都不足够，因为它们被这些零值所扭曲。专注于非零测量也会删除非常重要的真实零。计数数据的零膨胀模型已经很好地开发，但是不适合我的情况。

我考虑过将Tweedie分布拟合到数据，然后在response = f（subset_label）上拟合glm。从理论上讲，这似乎是可行的，但我想知道（a）这是否过大，以及（b）是否仍隐含地假设所有零均为样本零，即是否以与排列相同的方式（最多）被偏置？

直观地讲，听起来好像有某种层次结构设计，该结构结合了基于零比例的二项式统计量，例如，基于非零值（或者更好的是，非零值再加上零的一部分）计算出的Wilcoxon统计量零）。听起来像贝叶斯网络...

希望我不是第一个遇到这个问题的人，所以如果您能向我指出合适的现有技术，将不胜感激。

非常感谢！

hypothesis-testing

— a11msp
source

更新。到目前为止，我发现本文中的寻址与我相似的问题：maths.otago.ac.nz/home/downloads/david_fletcher/...

— a11msp

考虑到零构成绝对多数，我想知道这种极其简化的近似是否有意义：1）找到每个子集中零的比例。2）假设在零个数最少的子集中，所有零为真。3）从每个子集中，删除等于“最富零”数据集中的零比例的零比例。4）在修改后的数据集上运行标准非参数统计信息。

— 2011年

您第一个评论中指向该论文的超链接似乎已失效。您可以提供引用吗？

— coip

感谢您指出：doi.org/10.1007/s10651-005-6817-1

— a11msp

Answers:

@msp，我想您正在该附件中查看一个两阶段模型（我没有时间阅读它），但是零膨胀的连续数据是我经常使用的类型。要将参数模型拟合到此数据（以进行假设检验），可以拟合两个阶段，但随后有两个模型（Y是目标，X是协变量）：P（Y = 0 | X）和P（Y | X; Y> 0）。您必须使用模拟将这些“组合”在一起。Gelmans的书（和R中的arm包）显示了此精确模型的过程（使用对数链接的对数回归和普通线性回归）。

我看到的另一个更好的选择是拟合零膨胀的伽玛回归，该回归与上面相同（但伽玛是误差而不是高斯的），您可以将它们放在一起进行P（Y | X）的假设检验。我不知道如何在R中执行此操作，但是您可以在SAS NLMIXED中执行此操作。看到这篇文章，它运作良好。

— B_Miner
source

@B_Miner，非常感谢您的回答，对不起，您没有足够的评分给您投票...我将看一下链接！我对条件模型的唯一担心是，它们假定零不能属于第二个（连续）分量，对吗？我的设置是否有点像混合模型？你怎么看？

— 2011年

我现在复制了Gelman书中提出的两阶段方法。如果将subset_factor（具有25个级别）用作子集标签，则第一步是fit1 = glm（response〜subset_factor，family = binomial）；第二步是fit2 = lm（response〜subset_factor，subset = response> 0）。然后，我可以按照他们描述的方式进行仿真，以获得每个因子水平的拟合响应值的分布。但是，我仍然不确定如何将其转换为我所需要的，这是（a）系数不为零的概率，以及（b）不同因子水平下系数之间差异的显着性。

— a11msp 2011年

两阶段方法（两个独立模型的Gelman方法）假定两个总体，即零和以上。

— B_Miner 2011年

...因此，简单地说一下，如果在Gelman方法的两个模型中，某个因素水平的影响是显着的（并且与其他因素水平的影响显着不同），那么总体上是显着的吗？

— 2011年

是的，两阶段方法（两个独立模型的戈尔曼方法）假设两个总体，即零和大于零。假设检验，您能否根据输入水平不同的预测值来构成它们并构建经验模型？与每个模拟相关的置信区间？对于系数！= 0的假设检验，您需要对两个模型分别进行检验。

— B_Miner 2011年

市场营销测试中使用了与Fletcher论文类似的方法，在该方法中，我们可以将干预措施（例如广告）的影响任意地分为（a）购买品牌数量的变化（即零比例）和（b）购买乐队的频率发生变化（完全根据销售情况进行销售）。这是一种可靠的方法，在Fletcher讨论的营销环境和生态环境中具有概念上的意义。实际上，这可以扩展为（c）每次购买的大小变化。

— 自行车手
source

谢谢！我想知道您是否知道现有的r实现？

— 2011年

您可以处理未知的零的确切数目，但是将其限制在0和观察到的零数目之间。可以肯定地使用模型的贝叶斯公式来处理。也许还可以调整多重插补方法以适当地改变零观测值的权重（0到1之间）…

— 加博古利亚
source