2
将范围数据视为连续数据时的最佳做法
我正在查看丰度是否与大小有关。大小(当然)是连续的,但是,以这样的规模记录了丰度: A = 0-10 B = 11-25 C = 26-50 D = 51-100 E = 101-250 F = 251-500 G = 501-1000 H = 1001-2500 I = 2501-5000 J = 5001-10,000 etc... A至Q ... 17级。我在想一种可能的方法是给每个字母分配一个数字:最小,最大或中位数(即A = 5,B = 18,C = 38,D = 75.5 ...)。 潜在的陷阱是什么?因此,将这些数据视为分类会更好吗? 我已经阅读了这个问题,提供了一些想法-但此数据集的关键之一是类别不均匀-因此将其视为类别将假定A和B之间的差异与A之间的差异相同B和C ...(可以通过使用对数进行纠正-感谢Anonymouse) 最终,在考虑其他环境因素之后,我想看看是否可以将大小用作丰度的预测指标。预测也将在一个范围内:给定大小X以及因子A,B和C,我们预测丰度Y会介于最小和最大之间(我想这可能跨越一个或多个尺度点:大于最小D而小于最大F ...虽然越精确越好)。