将范围数据视为连续数据时的最佳做法


9

我正在查看丰度是否与大小有关。大小(当然)是连续的,但是,以这样的规模记录了丰度:

A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc... 

A至Q ... 17级。我在想一种可能的方法是给每个字母分配一个数字:最小,最大或中位数(即A = 5,B = 18,C = 38,D = 75.5 ...)。

潜在的陷阱是什么?因此,将这些数据视为分类会更好吗?

我已经阅读了这个问题,提供了一些想法-但此数据集的关键之一是类别不均匀-因此将其视为类别将假定A和B之间的差异与A之间的差异相同B和C ...(可以通过使用对数进行纠正-感谢Anonymouse)

最终,在考虑其他环境因素之后,我想看看是否可以将大小用作丰度的预测指标。预测也将在一个范围内:给定大小X以及因子A,B和C,我们预测丰度Y会介于最小和最大之间(我想这可能跨越一个或多个尺度点:大于最小D而小于最大F ...虽然越精确越好)。

Answers:


13

分类解决方案

将值视为绝对值会丢失有关相对大小的关键信息。解决此问题的标准方法是有序逻辑回归。实际上,此方法“知道”A<B<<J< 并且,将观察到的与回归变量的关系(例如大小)与符合排序的每个类别相匹配(有些随意)。

作为示例,考虑生成30个(大小,丰度类别)对,它们是

size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))

丰度分为间隔[0,10],[11,25],...,[10001,25000]。

丰度类别与大小的散点图

有序逻辑回归为每个类别生成概率分布。分布取决于大小。从这些详细信息中,您可以得出估计值和周围的间隔。以下是根据这些数据估算出的10个PDF的图表(由于其中没有数据,因此无法估算出第10类):

类别的概率密度

连续解决方案

为什么不选择一个代表每个类别的数值,然后将类别中真实丰度的不确定性视为误差项的一部分呢?

我们可以将其分析为理想化重新表达的离散近似 f 转换丰度值 a 转化为其他价值 f(a) 观测误差在很大程度上近似对称分布,并且预期大小大致相同,而无论 a (方差稳定转换)。

为了简化分析,假设已选择类别(基于理论或经验)以实现这种转换。我们可以假设f 重新表达类别切点 αi 作为他们的索引 i。该提议等于选择一些“特征”价值βi 在每个类别中 i 和使用 f(βi 当观察到丰度介于两者之间时,作为丰度的数值 αiαi+1。这将代表正确重新表达的值f(a

那么,假设观察到的丰度有误差 ε,因此假设的基准实际上是 一个+ε 代替 一个。将其编码为Fβ一世 从定义上来说,就是 Fβ一世-F一个,我们可以表示为两个术语的差

错误=F一个+ε-F一个-F一个+ε-Fβ一世

第一个学期 F一个+ε-F一个,由 F (我们无能为力 ε),如果我们不对丰富度进行分类,则会出现。第二项是随机的-它取决于ε-显然与 ε。但是我们可以说些什么:它必须介于一世-Fβ一世<0一世+1个-Fβ一世0。而且,如果F在做得很好时,第二项可能近似均匀地分布。两种考虑都建议选择β一世 以便 Fβ一世 介于两者之间 一世一世+1个; 那是,β一世F-1个一世+1个/2

这个问题中的这些类别形成了近似的几何级数,表明 F是对数的稍微变形的版本。因此,我们应该考虑使用区间端点的几何平均值来表示丰度数据

使用此过程的普通最小二乘回归(OLS)的斜率为7.70(标准误差为1.00),截距为0.70(标准误差为0.58),而不是斜率为8.19(se为0.97),截距为0.69(se 0.56)相对于大小回归对数丰度。两者均显示出均值回归,因为理论斜率应接近4日志109.21。如预期的那样,归类方法由于增加的离散化误差而显示出对均值的回归(斜率较小)。

回归结果

该图显示了未分类的丰度以及基于分类的丰度的拟合(建议使用类别端点的几何方法)和基于丰度本身的拟合。拟合非常接近,表明此示例中通过适当选择的数值替换类别的方法效果很好

选择合适的“中点”通常需要谨慎 β一世 对于两个极端类别,因为通常 F不受限制。(对于本示例,我粗略地将第一类的左端点设为1个 而不是 0 最后一个类别的正确端点是 25000。)一种解决方案是先使用两个极端类别中的任何一个都不使用数据来解决问题,然后使用拟合估计这些极端类别中的适当值,然后返回并拟合所有数据。p值将略为好,但总体拟合应更准确且偏差更少。


+1个极好的答案!我特别喜欢如何描述2种不同的选择及其理由。我还认为应该强调数量而不是大小,这也是我的想法。在第1部分中,一个问题说明“您可以在它们周围产生估计值和间隔”。如何做到这一点?
gung-恢复莫妮卡

好问题,@ gung。一种有效的粗略方法是将类别视为间隔值数据,而有序的logit结果对于任何给定的“大小”值,都在这些间隔上提供了(离散)分布。结果是区间值分布,其中将具有区间值均值和区间值置信度限制。
whuber

3
@whuber,值得一提的是软件选项。我猜想您使用了Stata(如果我对Stata图进行了足够的培训,并从R和SAS图中告诉他们),该模型就安装了ologit。在R中,您可以使用polrin MASS包进行此操作。
StasK 2011年

1
你是对的,@ Stask。感谢您参考R解决方案。(这些图都是Stata 11中的所有默认图;只有最后一个中的图例和线条样式是自定义的,因为否则约3%的读者可能看不到红绿色的区别。)
笨拙

2
@StasK rms::lrmordinalclm)包也是不错的选择。
chl

2

考虑使用大小的对数


哈-这个答案引起了局部的掌心。确实可以解决规模问题-但仍然可以解决:分类与否,以及将“值”固定在哪个数字上。如果这些问题无关紧要,我也可以处理。
Trees4theForest

1
好吧,您已经将各种问题合而为一。从对数尺度看,您拥有的数据似乎更有意义。是否要进行装箱是一个单独的问题,在这里我只能为您提供另一种答案:取决于您的数据和要实现的目标。然后还有另一个隐藏的问题:如何计算区间之间的差异-计算区间均值的差异?或最小距离(那么A到B为0,B到C为0,但A到C不是)。等
已退出– Anony-Mousse 2011年

好的,我已经用更多的信息更新了我的问题,以解决这些目标。至于间隔的差异,我认为这是我的问题-根据均值,最小距离,最大距离,最小值之间的距离,最大值之间的距离等来计算间隔的相对优缺点是什么。任何建议我需要考虑什么样的事情才能做出这个决定(或者甚至需要考虑)。
Trees4theForest

还有很多其他选择。例如,要消除所有比例效应,您可以尝试预测排名位置。除此之外,这是一个测量误差的问题。通过采用对数,通常也可以通过这种方式加权误差。因此,当真实值为10000且预测值为10100时,这要比在预测值为1且真实值为101时小得多。通过另外对仓位之间的分类器进行分装和计算,您甚至可以权重较小为0的错误
已经退出- Anony -摩丝
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.