考虑以下实验:给一组人一个城市列表,并要求他们在世界地图上标记相应的位置(否则未标记)。对于每个城市,您将获得大致以相应城市为中心的点分散。伊斯坦布尔说,一些城市的分散程度要低于其他城市。
假设对于给定的城市,我们得到一组2D样本,代表测试分配的地图上城市(例如,本地坐标系)的位置主题。我想用适当的单位(km)将这个集合中点的“分散”数量表示为一个数字。
对于一维问题,我会选择标准偏差,但是是否可以为上述情况合理选择一个二维模拟?
考虑以下实验:给一组人一个城市列表,并要求他们在世界地图上标记相应的位置(否则未标记)。对于每个城市,您将获得大致以相应城市为中心的点分散。伊斯坦布尔说,一些城市的分散程度要低于其他城市。
假设对于给定的城市,我们得到一组2D样本,代表测试分配的地图上城市(例如,本地坐标系)的位置主题。我想用适当的单位(km)将这个集合中点的“分散”数量表示为一个数字。
对于一维问题,我会选择标准偏差,但是是否可以为上述情况合理选择一个二维模拟?
Answers:
您可以使用的一件事是到中心点的距离度量,例如这些点的样本均值,或者可能是观测点的质心。然后,离差的度量是到该中心点的平均距离:
其中。距离度量有许多潜在选择,但是范数(例如欧几里德距离)可能是一个合理的选择: L 2
但是,还有许多其他潜在的选择。参见http://en.wikipedia.org/wiki/Norm_%28mathematics%29
我认为您应该使用“马哈拉诺比斯距离”而不是欧几里得距离准则,因为它考虑了数据集的相关性并且是“尺度不变的”。链接在这里:
http://en.wikipedia.org/wiki/Mahalanobis_distance
您也可以使用“半空深度”。它有点复杂,但具有许多吸引人的特性。给定点a相对于数据集P的半空间深度(也称为位置深度)是位于通过a线确定的任何封闭半平面中的P点的最小数量。这里是链接:
http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf
最近我实际上遇到了类似的问题。听起来好像您想要一种方法来测量点在区域上的分散程度。当然,对于给定的度量,您必须意识到,如果所有点都在一条直线上,则答案是零,因为没有二维变化。
根据我所做的计算,这是我想到的:
在这种情况下,Sxx和Syy分别是x和y的方差,而Sxy有点像x和y的混合方差。
详细地说,假设有n个元素,并且代表x 的平均值,而代表y的平均值:
希望这对您有用。
另外,如果您想知道如何在更高的维度上进行操作,例如在4个维度上测量体积分布或吸附剂体积,则必须形成如下矩阵:
Sxx Sxy Sxz ...
Syx Syy Syz ...
Szx Szy Szz ...
…………
并继续执行您需要的许多尺寸。给定上面提供的定义,您应该能够得出S值,但要使用不同的变量。
矩阵形成后,确定行列式,求平方根,然后完成。