分类解决方案
将值视为绝对值会丢失有关相对大小的关键信息。解决此问题的标准方法是有序逻辑回归。实际上,此方法“知道”A<B<⋯<J<… 并且,将观察到的与回归变量的关系(例如大小)与符合排序的每个类别相匹配(有些随意)。
作为示例,考虑生成30个(大小,丰度类别)对,它们是
size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))
丰度分为间隔[0,10],[11,25],...,[10001,25000]。
有序逻辑回归为每个类别生成概率分布。分布取决于大小。从这些详细信息中,您可以得出估计值和周围的间隔。以下是根据这些数据估算出的10个PDF的图表(由于其中没有数据,因此无法估算出第10类):
连续解决方案
为什么不选择一个代表每个类别的数值,然后将类别中真实丰度的不确定性视为误差项的一部分呢?
我们可以将其分析为理想化重新表达的离散近似 f 转换丰度值 a 转化为其他价值 f(a) 观测误差在很大程度上近似对称分布,并且预期大小大致相同,而无论 a (方差稳定转换)。
为了简化分析,假设已选择类别(基于理论或经验)以实现这种转换。我们可以假设f 重新表达类别切点 αi 作为他们的索引 i。该提议等于选择一些“特征”价值βi 在每个类别中 i 和使用 f(βi) 当观察到丰度介于两者之间时,作为丰度的数值 αi 和 αi+1。这将代表正确重新表达的值f(a)。
那么,假设观察到的丰度有误差 ε,因此假设的基准实际上是 a + ε 代替 一个。将其编码为F(β一世) 从定义上来说,就是 F(β一世)− f(一),我们可以表示为两个术语的差
误差= f(a + ε )− f(a )- (f(a + ε )− f(β一世))。
第一个学期 F(a + ε )− f(一),由 F (我们无能为力 ε),如果我们不对丰富度进行分类,则会出现。第二项是随机的-它取决于ε-显然与 ε。但是我们可以说些什么:它必须介于我- ˚F(β一世)< 0 和 i + 1 − f(β一世)≥ 0。而且,如果F在做得很好时,第二项可能近似均匀地分布。两种考虑都建议选择β一世 以便 F(β一世) 介于两者之间 一世 和 我+ 1; 那是,β一世≈F− 1(我+ 1 / 2 )。
这个问题中的这些类别形成了近似的几何级数,表明 F是对数的稍微变形的版本。因此,我们应该考虑使用区间端点的几何平均值来表示丰度数据。
使用此过程的普通最小二乘回归(OLS)的斜率为7.70(标准误差为1.00),截距为0.70(标准误差为0.58),而不是斜率为8.19(se为0.97),截距为0.69(se 0.56)相对于大小回归对数丰度。两者均显示出均值回归,因为理论斜率应接近4 日志(10 )≈ 9.21。如预期的那样,归类方法由于增加的离散化误差而显示出对均值的回归(斜率较小)。
该图显示了未分类的丰度以及基于分类的丰度的拟合(建议使用类别端点的几何方法)和基于丰度本身的拟合。拟合非常接近,表明此示例中通过适当选择的数值替换类别的方法效果很好。
选择合适的“中点”通常需要谨慎 β一世 对于两个极端类别,因为通常 F不受限制。(对于本示例,我粗略地将第一类的左端点设为1个 而不是 0 最后一个类别的正确端点是 25000。)一种解决方案是先使用两个极端类别中的任何一个都不使用数据来解决问题,然后使用拟合估计这些极端类别中的适当值,然后返回并拟合所有数据。p值将略为好,但总体拟合应更准确且偏差更少。