标准偏差的2D模拟?


19

考虑以下实验:给一组人一个城市列表,并要求他们在世界地图上标记相应的位置(否则未标记)。对于每个城市,您将获得大致以相应城市为中心的点分散。伊斯坦布尔说,一些城市的分散程度要低于其他城市。

假设对于给定的城市,我们得到一组2D样本,代表测试分配的地图上城市(例如,本地坐标系)的位置主题。我想用适当的单位(km)将这个集合中点的“分散”数量表示为一个数字。{(xi,yi)}(x,y)i

对于一维问题,我会选择标准偏差,但是是否可以为上述情况合理选择一个二维模拟?


在征服?
RockScience 2011年

我添加了空间标签,因为该示例是明确的空间标签。如果您(或其他任何人)觉得不需要,请随时回退该添加项。
Andy W

Answers:


12

您可以使用的一件事是到中心点的距离度量,例如这些点的样本均值,或者可能是观测点的质心。然后,离差的度量是到该中心点的平均距离:c=(c1,c2)(x¯,y¯)

1ni=1n||zic||

其中。距离度量有许多潜在选择,但是范数(例如欧几里德距离)可能是一个合理的选择: L 2zi={xi,yi}L2

||zic||=(xic1)2+(yic2)2

但是,还有许多其他潜在的选择。参见http://en.wikipedia.org/wiki/Norm_%28mathematics%29


尽管距离将不为零,但这确实是一个奇怪的选择,因为在退化的情况下,它与一维的通常标准偏差不一致。因此,请考虑考虑。zic2
Alex R.

6

犯罪统计手册》CrimeStat手册)是关于点模式空间分布的度量标准的一个很好的参考(特别是对于这个问题,第4章将引起关注)。与建议的度量宏类似,“标准距离偏差”类似于2D标准偏差(唯一的区别是,在宏给出的第一个公式中,您将除以“ n-2”而不是“ n”)。

您的示例实验实际上使我想起了研究如何评估地理违规者概况,因此这些作品中使用的度量标准可能会令人感兴趣。特别是,术语“精度”和“准确性”已被大量使用,并且与研究有关。猜猜的标准偏差可能很小(即精确),但准确性仍然很低。


1

我认为您应该使用“马哈拉诺比斯距离”而不是欧几里得距离准则,因为它考虑了数据集的相关性并且是“尺度不变的”。链接在这里:

http://en.wikipedia.org/wiki/Mahalanobis_distance

您也可以使用“半空深度”。它有点复杂,但具有许多吸引人的特性。给定点a相对于数据集P的半空间深度(也称为位置深度)是位于通过a线确定的任何封闭半平面中的P点的最小数量。这里是链接:

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf


1
当您试图告诉特定点是否“属于”该集合时,我理解使用马氏距离,但距质心的平均欧几里得距离是否与通常使用的方差/标准差概念更不相关单变量设置?

2
您介意陈述“考虑到数据的相关性”和“尺度不变”的说法吗?这些问题与手头的问题有什么关系?
安迪W

通常,将标准偏差扩展到更高的维度当然是一种计算特定点到数据中心的距离的方法-但是这里我们对每个点进行了归一化,这使得执行聚类分析或离群值检测变得容易。而且,马氏距离更适合点分布为非球形的情况。对于球对称情况,它与通常的扩展标准偏差相同-数据点的协方差矩阵减小为恒等矩阵。
VitalStatistix

1

最近我实际上遇到了类似的问题。听起来好像您想要一种方法来测量点在区域上的分散程度。当然,对于给定的度量,您必须意识到,如果所有点都在一条直线上,则答案是零,因为没有二维变化。

根据我所做的计算,这是我想到的:

小号XX小号ÿÿ-小号Xÿ²

在这种情况下,Sxx和Syy分别是x和y的方差,而Sxy有点像x和y的混合方差。

详细地说,假设有n个元素,并且代表x 的平均值,而代表y的平均值:Xμÿμ

小号XX=1个ñ一世=1个ñX-Xμ²
小号ÿÿ=1个ñ一世=1个ñÿ-ÿμ²
小号Xÿ=1个ñ一世=1个ñX-Xμÿ-ÿμ

希望这对您有用。

另外,如果您想知道如何在更高的维度上进行操作,例如在4个维度上测量体积分布或吸附剂体积,则必须形成如下矩阵:

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

…………

并继续执行您需要的许多尺寸。给定上面提供的定义,您应该能够得出S值,但要使用不同的变量。

矩阵形成后,确定行列式,求平方根,然后完成。


0

对于此特定示例 -在有预先确定的“正确”答案的情况下-我会将x / y坐标重新加工为他们被要求在地图上标记的城市周围的极坐标。然后再次测量径向分量(平均值,标准偏差等)的精度。“平均角度”也可以用来测量偏差。

对于我自己,我仍在寻找一种很好的解决方案,以解决没有预定中心点的情况,并且不喜欢预先传递数据以创建质心的想法。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.