尽管这是我自己的问题,但我还将发布自己的2美分作为答案,以便我们增加对此问题的看法。这里的问题是,最初将单参数分布拟合到数据是否明智。当使用单参数分布时(例如泊松GLM或具有固定试验参数的二项式GLM),方差不是自由参数,而是被约束为均值的某些函数。这意味着在任何情况下,如果您不能绝对确定方差遵循该分布的结构,就不宜将单参数分布拟合到数据。
将单参数分布拟合到数据几乎总是一个坏主意:数据通常比所提议的模型更混乱,并且即使有理论上的理由相信可以获得特定的单参数模型,数据也常常如此实际上来自该单参数分布与一系列参数值的混合。这通常等同于更广泛的模型,例如允许更大差异自由的两参数分布。如下所述,对于计数数据而言,这对于Poisson GLM是正确的。
如问题中所述,在大多数统计应用中,通常的做法是使用至少允许前两个时刻自由变化的分布形式。这确保了拟合模型允许数据指示推断的均值和方差,而不是由模型人为地约束这些值和方差。具有第二个参数只会在模型中失去一个自由度,与允许从数据估算方差的好处相比,这是一个很小的损失。当然,可以扩展这种推理,并添加第三个参数以允许偏斜度,第四个参数以允许峰度拟合,等等。
除极少数例外外,泊松GLM是一个不好的模型:以我的经验,拟合泊松分布以对数据进行计数几乎总是一个坏主意。对于计数数据,相对于泊松分布而言,数据的方差“过度分散”是非常普遍的。即使在理论指向泊松分布的情况下,最佳模型通常也是泊松分布的混合,其中方差成为自由参数。实际上,在计数数据的情况下,负二项式分布是速率参数的伽马分布的泊松混合,因此即使有理论上的理由认为计数是根据泊松分布的过程到达的,通常也存在“过度分散”且负二项式分布拟合得更好的情况。
将Poisson GLM拟合以对数据进行计数,然后进行统计测试以检查“过度分散”的做法是不合时宜的,几乎从来都不是一种好的做法。在其他形式的统计分析中,我们不是从两参数分布开始,而是任意选择方差限制,然后测试此限制以尝试从分布中消除参数。通过这种方式,我们实际上创建了一个笨拙的混合过程,包括用于模型选择的初始假设检验,然后是实际模型(泊松或更广泛的分布)。在许多情况下,已经表明,从初始模型选择测试创建混合模型的这种做法会导致不良的整体模型。
在均差的T检验中,使用了类似的混合方法的类似情况。过去的情况是,统计学课程会建议首先使用Levene检验(甚至只是一些更糟糕的“经验法则”)来检查两个总体之间的方差是否相等,然后如果数据“通过”此检验,您将使用假设方差相等的学生T检验,如果数据“未通过”检验,则应改用Welch的T检验。这实际上是一个非常糟糕的过程(例如,请参见此处和此处))。最好只使用后一种检验,该检验不对方差做任何假设,而不是创建一个笨拙的复合检验,该检验将初步的假设检验卡在一起,然后使用该检验来选择模型。
对于计数数据,通常可以通过拟合两参数模型(例如负二项式或准泊松模型)来获得良好的初始结果。(请注意,后者不是真实的分布,但是它仍然提供了合理的两参数模型。)如果根本不需要任何进一步的概括,通常是零通货膨胀的附加,其中零的数量过多在数据中。限制使用Poisson GLM是一种人为的,毫无意义的模型选择,并且通过过度分散测试并不能使其变得更好。
好的,这是一些次要例外:上面唯一的实际例外是两种情况:
(1)您有极强的先验理论基础,可以相信满足一个参数分布的假设,并且部分分析是针对数据测试该理论模型;要么
(2)由于某些其他(奇怪的)原因,分析的目的是对数据的方差进行假设检验,因此您实际上想将此方差限制在此假设的限制范围内,然后测试该假设。
这些情况非常罕见。它们往往仅在对数据生成机制具有很强的先验理论知识时才会出现,而分析的目的是检验这一基础理论。在严格控制的条件下(例如,在物理条件下)生成数据的应用范围极其有限的情况下可能就是这种情况。