非常感谢您对以下问题的建议:
我有一个很大的连续数据集,其中有很多零(〜95%),我需要找到最佳方法来测试它的某些子集是否“有趣”,即,似乎不是从与其余的部分。零膨胀来自以下事实:每个数据点均基于具有零和真实零的计数测量值,但是结果是连续的,因为它考虑了由计数加权的其他一些参数(因此,如果计数为零,则结果为也是零)。
最好的方法是什么?我觉得Wilcoxon甚至蛮力置换测试都不足够,因为它们被这些零值所扭曲。专注于非零测量也会删除非常重要的真实零。计数数据的零膨胀模型已经很好地开发,但是不适合我的情况。
我考虑过将Tweedie分布拟合到数据,然后在response = f(subset_label)上拟合glm。从理论上讲,这似乎是可行的,但我想知道(a)这是否过大,以及(b)是否仍隐含地假设所有零均为样本零,即是否以与排列相同的方式(最多)被偏置?
直观地讲,听起来好像有某种层次结构设计,该结构结合了基于零比例的二项式统计量,例如,基于非零值(或者更好的是,非零值再加上零的一部分)计算出的Wilcoxon统计量零)。听起来像贝叶斯网络...
希望我不是第一个遇到这个问题的人,所以如果您能向我指出合适的现有技术,将不胜感激。
非常感谢!