分配百分比数据

11

我有一个关于使用我的数据创建模型的正确分布的问题。我用50个地块进行了森林清查，每个地块的尺寸为20m×50m。对于每个图，我估计了遮蔽地面的树冠的百分比。每个地块都有一个以百分比表示的顶盖覆盖率值。百分比范围从0到0.95。我正在建立一个树冠覆盖率百分比模型（Y变量），并具有一个基于卫星图像和环境数据的独立X变量的矩阵。

我不确定是否应该使用二项式分布，因为二项式随机变量是n个独立试验的总和（即，伯努利随机变量）。百分比值不是试验的总和；它们是实际百分比。即使没有上限，我也应该使用伽玛吗？我应该将百分比转换为整数并使用泊松作为计数吗？我应该坚持使用高斯吗？我没有在文献或教科书中找到许多尝试以这种方式模拟百分比的示例。任何提示或见解表示赞赏。

谢谢您的回答。实际上，正是我需要的beta发行版，并在本文中进行了详细讨论：

Eskelson，BN，Madsen，L.，Hagar，JC和Temesgen，H.（2011）。使用Beta回归和copula模型估算河岸底层植被覆盖度。森林科学，57（3），212-221。

这些作者使用Cribari-Neto和Zeileis的R中的betareg软件包。

下面的文章讨论了转换包含百分比范围内的真0和/或1的beta分布响应变量的好方法：

Smithson，M.和J. Verkuilen，2006年。更好的柠檬榨汁器？具有β分布因变量的最大似然回归，《心理方法》，11（1）：54–71。

distributions binomial gamma-distribution

— 罗恩
source

2

您是否考虑过使用分数logit或零膨胀beta？

— Dimitriy V. Masterov 2014年

2

谢谢您的回答。实际上，贝塔分布正是我需要的，本文对此进行了全面讨论：Eskelson，BN，Madsen，L.，Hagar，JC，＆Temesgen，H.（2011）。使用Beta回归和copula模型估算河岸底层植被覆盖度。森林科学，57（3），212-221。这些作者使用Cribari-Neto和Zeileis的R中的betareg软件包。下面的文章讨论了一种在百分比分布范围内包含真0和/或1时转换beta分布的响应变量的好方法：Smithson，M.和J. Verkuilen，2006年。更好的柠檬平方

7

正确的是，二项式分布是针对离散比例的，该离散比例是由有限数量的伯努利试验产生的“成功”数量引起的，并且这使得该分布不适合您的数据。您应使用Gamma分布除以该Gamma加上另一个Gamma的总和。也就是说，您应该使用Beta分布来建模连续比例。

我在这里的答案中有一个beta回归示例：使用R中的回归消除因子对连续比例数据的影响。

更新：
@ DimitriyV.Masterov提出了一个很好的观点，即您提到的数据为 $0$ ，但仅在 $(0,\ 1)$ 。这提示了如何使用此类值的问题。从这个出色的CV线程中可以得出一些想法：应该向x中添加多少数量以避免取0的对数？

— gung-恢复莫妮卡
source

3

Beta发行版可以处理零吗？

— Dimitriy V. Masterov 2014年

1

百分比值代表与样本数量无关的比率。您想将这些百分比用作因变量，而将卫星图像用作解释性变量。但是，我想库存中并非所有的50个地块都有相似数量的样本。将这些百分比与其他变量相关联的合适模型应考虑到测量中的不确定性，从而在具有高样本量的地块上赋予更多权重。

此外，数据的错误分布显然是二项式的。误差方差在边界处最小，这可以通过二项式分布来捕获。

在我看来，这一切都是使用具有二项式误差模型的GLM的典型示例。

Crawley撰写的第14章“统计：使用R进行介绍”准确地讨论了该主题以及如何使用R对其进行分析。

— no黑猩猩
source

4

该二项式分布是成功的次数的从伯努利试验的已知数量的分布。您认为“伯努利试验也由二项分布描述的事实并不意味着由二项分布描述的所有事物都必须符合伯努利结构”的说法是不正确的。二项式分布不适用于连续比例。另外，我不是建议使用Gamma分布，而是建议使用beta分布。

— gung-恢复莫妮卡

1

是的，您完全正确。

— no黑猩猩