我有一个关于使用我的数据创建模型的正确分布的问题。我用50个地块进行了森林清查,每个地块的尺寸为20m×50m。对于每个图,我估计了遮蔽地面的树冠的百分比。每个地块都有一个以百分比表示的顶盖覆盖率值。百分比范围从0到0.95。我正在建立一个树冠覆盖率百分比模型(Y变量),并具有一个基于卫星图像和环境数据的独立X变量的矩阵。
我不确定是否应该使用二项式分布,因为二项式随机变量是n个独立试验的总和(即,伯努利随机变量)。百分比值不是试验的总和;它们是实际百分比。即使没有上限,我也应该使用伽玛吗?我应该将百分比转换为整数并使用泊松作为计数吗?我应该坚持使用高斯吗?我没有在文献或教科书中找到许多尝试以这种方式模拟百分比的示例。任何提示或见解表示赞赏。
谢谢您的回答。实际上,正是我需要的beta发行版,并在本文中进行了详细讨论:
Eskelson,BN,Madsen,L.,Hagar,JC和Temesgen,H.(2011)。使用Beta回归和copula模型估算河岸底层植被覆盖度。森林科学,57(3),212-221。
这些作者使用Cribari-Neto和Zeileis的R中的betareg软件包。
下面的文章讨论了转换包含百分比范围内的真0和/或1的beta分布响应变量的好方法:
- Smithson,M.和J. Verkuilen,2006年。更好的柠檬榨汁器?具有β分布因变量的最大似然回归,《心理方法》,11(1):54–71。