Questions tagged «overdispersion»

过度分散是指变异性大于数据中应有的变异性。例如,计数的方差通常大于平均值,而泊松的方差应等于平均值​​。

1
glmnet如何处理过度分散?
我有一个关于如何对计数数据进行文本建模的问题,尤其是如何使用该lasso技术来减少特征。 假设我有N篇在线文章以及每篇文章的综合浏览量。我为每篇文章提取了1克和2克,我想对1,2克进行回归。由于特征(1,2克)比观察的数量更多,所以套索将是减少特征数量的好方法。另外,我发现glmnet运行套索分析非常方便。 然而,网页浏览量计数的overdispersed(方差>的意思),但glmnet不提供quasipoisson(明确的),或者negative binomial,但poisson对数的数据。我想到的解决方案是对log transform计数数据(社会科学家中常用的方法)进行计数,并使响应变量大致遵循正态分布。因此,我可以使用高斯族对数据进行建模glmnet。 所以我的问题是:这样做合适吗?或者,应我只是用泊松的glmnet情况下glmnet手柄quasipoisson?还是有其他R软件包可以处理这种情况? 非常感谢你!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.