使分布适合空间数据


10

从mathoverflow交叉发布我的问题,以找到一些特定于统计信息的帮助。

我正在研究一个物理过程,该过程生成的数据可以很好地投影到具有非负值的两个维度中。每个过程都有 -点的(投影)轨迹-参见下图。xy

样本轨道为蓝色,麻烦的轨道类型以绿色绘制,而关注区域则以红色绘制: 足迹和关注区域

每个轨道都是独立实验的结果。几年来已经进行了2000万次实验,但是从那开始只有2000项实验展现了我们绘制的轨迹特征。我们只关心产生轨迹的实验,因此我们的数据集是(大约)两千条轨迹。

这是可能的轨道,进入关注的区域,我们期望的顺序在曲目这样做。估算这个数字是眼前的问题:1104

我们如何计算一条任意轨道进入关注区域的可能性?

不可能足够快地进行实验,以查看进入关注区域的跟踪的产生频率,因此我们需要从可用数据中推断出结果。

例如,我们已经拟合了给定值,但这并不能充分处理绿色轨迹之类的数据-似乎需要一个包含两个维度的模型。xy200

我们已经确定了从每个轨道到关注区域的最小距离,但是我们不相信这会产生合理的结果。

1)是否有已知的方法可以使分布适合此类数据进行外推?

-要么-

2)是否有明显的方法使用此数据来创建用于生成轨道的模型?例如,使用轨道上的主成分分析作为较大空间中的点,然后对投影到这些成分上的轨道拟合分布(Pearson?)。


1
我不能提供有关特定过程的更多信息,但是我将更新问题以说明如何收集数据。
杰夫·斯尼德

1
我已经更新了语言以尝试更加具体。想象一下,我们在一个敞开的顶层窗户上扔卵石,而我们只关心穿过窗户的卵石如何在内部地板上反弹。我们扔了数百万个小卵石,大约有2000个卵石通过了窗户。当鹅卵石穿过窗户时,我们会在地板上绘制轨迹。给定卵石穿过窗户,我们想估计它穿过关注区域的可能性。
杰夫·斯尼德

Answers:


1

听起来您想模拟轨道的形成,然后进行蒙特卡洛模拟,以查看有多少轨道落入红色区域。为此,我首先将线转换为两个函数,一个给出方向,另一个从该点到另一点的距离。现在,您可以研究与这两个函数关联的概率分布。例如,您可能会发现行进的距离遵循特定的分布(请注意,分布不会随时间变化)。如果这两个变量的确随时间变化,那么您必须深入研究时间序列分析(抱歉,不是我的领域)。

想到的另一个想法是,由于大多数轨道中xy的移动方向逐渐变化,因此您最好检查一下轨道的方向随时间的变化。

您还需要估计从给定xy坐标和给定方向开始的轨迹的概率。您可能要考虑使用核密度估计来平滑生成的PDF,或者,如果看起来遵循具有分析模型的分布,则可以使用期望最大化来使该分布适合数据。

然后,蒙特卡洛模拟将从这些分布中抽取随机样本,以模拟轨道的形状。然后,您必须模拟大量轨道,并查看这些轨道通过红色区域的频率。这可能是成千上万的曲目,您必须进行实验以查看随着添加更多曲目时分发停止停止变化。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.