我试图找到某种类型的重复测量数据的最合适的特征分布。
本质上,在我所在的地质学领域,我们经常使用放射线测定样品中的矿物(岩石块)的年代,以查明事件发生多久了(岩石冷却到阈值温度以下)。通常,将对每个样本进行几次(3-10)次测量。然后,取平均值和标准偏差。这是地质,因此样品的冷却年龄可以根据情况从扩展到年。σ 10 5 10 9
不过,我有理由相信,测量不高斯:“离群”,要么宣布随意,或者通过一些标准,比如皮尔斯的标准[罗斯2003]或狄克逊Q检验[院长和迪克森,1951年],是相当这很常见(例如30分之一),而且这些数据几乎总是比较旧,这表明这些测量值通常偏向右侧。与矿物杂质有关的原因很容易理解。
因此,如果我能找到一个更好的分布,包括肥尾和偏斜,我认为我们可以构造更有意义的位置和比例参数,而不必如此迅速地分配离群值。也就是说,如果可以证明这些类型的测量是对数正态或对数拉普拉斯等,则可以使用比和更合适的最大似然性度量,它们是非稳健的,在这种情况下可能会有偏差系统右偏的数据。σ
我想知道这样做的最好方法是什么。到目前为止,我有一个大约有600个样本的数据库,每个样本有2-10个(或大约)重复测量值。我尝试通过将样本除以均值或中位数来对样本进行归一化,然后查看归一化数据的直方图。这会产生合理的结果,并且似乎表明该数据具有典型的对数拉普拉斯算式:
但是,我不确定这是否是解决问题的适当方法,或者不确定我是否意识到有一些警告可能会影响我的结果,所以它们看起来像这样。是否有人对这种事情有经验并知道最佳实践?