如何规范未知分布的数据


12

我试图找到某种类型的重复测量数据的最合适的特征分布。

本质上,在我所在的地质学领域,我们经常使用放射线测定样品中的矿物(岩石块)的年代,以查明事件发生多久了(岩石冷却到阈值温度以下)。通常,将对每个样本进行几次(3-10)次测量。然后,取平均值和标准偏差。这是地质,因此样品的冷却年龄可以根据情况从扩展到年。σ 10 5 10 9μσ105109

不过,我有理由相信,测量不高斯:“离群”,要么宣布随意,或者通过一些标准,比如皮尔斯的标准[罗斯2003]或狄克逊Q检验[院长和迪克森,1951年],是相当这很常见(例如30分之一),而且这些数据几乎总是比较旧,这表明这些测量值通常偏向右侧。与矿物杂质有关的原因很容易理解。

均值与中位数样本年龄。 红线表示均值=中位数。 注意由偏斜的测量结果引起的较旧的平均值。

因此,如果我能找到一个更好的分布,包括肥尾和偏斜,我认为我们可以构造更有意义的位置和比例参数,而不必如此迅速地分配离群值。也就是说,如果可以证明这些类型的测量是对数正态或对数拉普拉斯等,则可以使用比和更合适的最大似然性度量,它们是非稳健的,在这种情况下可能会有偏差系统右偏的数据。σμσ

我想知道这样做的最好方法是什么。到目前为止,我有一个大约有600个样本的数据库,每个样本有2-10个(或大约)重复测量值。我尝试通过将样本除以均值或中位数来对样本进行归一化,然后查看归一化数据的直方图。这会产生合理的结果,并且似乎表明该数据具有典型的对数拉普拉斯算式:

在此处输入图片说明

但是,我不确定这是否是解决问题的适当方法,或者不确定我是否意识到有一些警告可能会影响我的结果,所以它们看起来像这样。是否有人对这种事情有经验并知道最佳实践?


4
由于在这种情况下使用“规范化”来表示几种不同的事物,因此“规范化”到底是什么意思?您想从数据中获取什么信息?
Glen_b-恢复莫妮卡2014年

1
@Glen_b:通过“规范化”,我的意思是简单地按中位数(或均值)对事物的所有测得的年龄进行中位数(或均值,或其他)缩放。有实验证据表明,样品中的分散度随年龄线性增加。我想从数据中看到的是,查看这种类型的测量是否最好以正态,对数正态或beta或任何分布来表征,以便可以得出最准确的位置和比例,或L1 vs. L2回归是合理的,等等。在这篇文章中,我问我如何获取描述的数据并对此进行调查。
cossatot 2014年

1
我在该领域没有专业知识,但是您的图表和您的想法看起来不错。您可能已经看过了,但是Log-Laplace上的Wikipedia文章链接到了一篇不错的文章,该文章没有直接解决您的问题,但可能有一些有趣的见解:wolfweb.unr.edu/homepage/tkozubow/0_logs.pdf
韦恩

我不确定我是否完全理解,但是引导可能会有所帮助?如果使用自举方法恢复分布的方差等,则可以使用恢复的信息对数据进行规范化。en.wikipedia.org/wiki/Bootstrapping_(statistics)
123

Answers:


1

您是否考虑过对每个样本进行(3-10)次测量的平均值?然后,您可以使用结果分布-近似于t分布,近似于大n的正态分布吗?


1

我认为您不是用归一化来表示通常的含义,例如,通常是将均值和/或方差归一化和/或白化。

我认为您要尝试做的是找到一个非线性重新参数化和/或功能,使您可以在数据上使用线性模型。

这是不平凡的,没有简单的答案。这就是为什么数据科学家会得到很多钱的原因;-)

创建非线性特征的一种相对直接的方法是使用前馈神经网络,其中层的数量以及每层神经元的数量控制网络生成特征的能力。更高的容量=>更多的非线性,更多的过度拟合。较低的容量=>更大的线性度,更高的偏差,更低的方差。

给您更多控制的另一种方法是使用样条曲线。

最后,您可以手动创建此类功能,我想这就是您要尝试的功能,但是,没有简单的“黑匣子”答案:您需要仔细分析数据,查找模式等。 。


规范化在数学和科学中具有多种含义。宣称个人最熟悉的一个意思是标准,这是大多数人都想做的事情,但不会与其他人一起洗。更严重的是,这是从主题开始的,但随后逐渐偏离。对非线性模型感兴趣的指示在哪里?神经网络?花键?这些与确定分布或分布族有什么关系呢?我看不到连接,因此建议您删除不相关的内容或将其扩展以显示其相关性。
尼克·考克斯

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.