我有一些数据点,每个数据点包含5个聚集的离散结果向量,每个向量的结果都是通过不同的分布生成的(具体类型我不确定,我最好的猜测是Weibull,其形状参数在幂次幂附近变化定律(大致为1到0)。)
我正在寻找使用像K-Means这样的聚类算法,根据其5个分量分布的属性将每个数据点分组。我想知道是否有确定的距离度量标准可以很好地满足这些目的。到目前为止,我已经有了三个想法,但是我不是一个经验丰富的统计学家(更多的是一位数据挖掘计算机初学者),所以我几乎不知道自己有多远。
由于我不知道我要处理的是哪种分布,因此我的蛮力解决方法是将每个分布(每个点有5个)切成其各自的离散数据值(I pad)每个值都对应一个相同的长度,并在末尾用零表示),并将这些值中的每个用作数据点本身的单独属性。我尝试基于PDF和CDF的这些属性使用曼哈顿距离和欧几里得距离作为度量。
再一次,由于我不知道我拥有哪种分布,所以我发现,如果要测量总体分布之间的距离,则可以在分布之间使用某种非参数测试对,例如KS检验,以查找给定分布是由不同PDF生成的可能性。我认为,使用曼哈顿距离的第一个选择(以上)将是使用该方法可能获得的一种上限(因为KS统计量是CDF差的最大绝对值,其中曼哈顿距离是PDF差异的绝对值之和)。然后,我考虑了可能使用欧几里得距离,但可能仅取所有这些值中的最大值来组合每个数据点内不同的KS统计量或P值。
最后,为了尽我所能解释的分布形状,我想我可能会尝试估计分布的参数以拟合Weibull曲线。然后,我可以基于Weibull分布的两个参数lambda和k(比例和形状)的差异对分布进行聚类,可能根据这些参数的差异或某种形式进行归一化。这是我认为可能对参数进行标准化的唯一情况。
所以我的问题是,对于集群分布,您会建议什么度量/方法?我甚至在这些方面都走对了吗?K-Means甚至是使用的好算法吗?
编辑:澄清数据。
每个数据点(Obj
我要集群的每个对象)实际上都包含5 vectors
数据。我知道这些对象可以进入5个阶段。(为简化起见)我们将说每个向量都属于length N
。
这些载体(称之为中的每一个vector i
)是一个概率分布与整数x-values
至N,其中每个对应的y值表示测量的概率1 value x
中phase i
的对象Obj
。那么N是我期望在对象的任何阶段测量的最大x值(在我的分析中,这实际上不是一个固定的数字)。
我通过以下方式确定这些概率:
我拿一个
Obj
,并把它phase i
的k trials
,进行测量,在每次试验。每个度量都是一个整数。我对单个对象的5个阶段中的每个阶段都执行此操作,然后依次对每个对象执行此操作。我对单个对象的原始测量数据可能类似于:向量1。[90、42、30、9、3、4、0、1、0、0、1]
向量2。[150,16,5,0,1,0,0,0,0,0,0]
...
矢量5。[16,... ...,0]
然后,相对于该给定向量中的测量总数,我将每个向量单独归一化。这使我在该载体中,其中每一个对应的y值表示测量的概率的概率分布
value x
中phase i
。