聚类概率分布-方法和指标?


13

我有一些数据点,每个数据点包含5个聚集的离散结果向量,每个向量的结果都是通过不同的分布生成的(具体类型我不确定,我最好的猜测是Weibull,其形状参数在幂次幂附近变化定律(大致为1到0)。)

我正在寻找使用像K-Means这样的聚类算法,根据其5个分量分布的属性将每个数据点分组。我想知道是否有确定的距离度量标准可以很好地满足这些目的。到目前为止,我已经有了三个想法,但是我不是一个经验丰富的统计学家(更多的是一位数据挖掘计算机初学者),所以我几乎不知道自己有多远。

  1. 由于我不知道我要处理的是哪种分布,因此我的蛮力解决方法是将每个分布(每个点有5个)切成其各自的离散数据值(I pad)每个值都对应一个相同的长度,并在末尾用零表示),并将这些值中的每个用作数据点本身的单独属性。我尝试基于PDF和CDF的这些属性使用曼哈顿距离和欧几里得距离作为度量。

  2. 再一次,由于我不知道我拥有哪种分布,所以我发现,如果要测量总体分布之间的距离,则可以在分布之间使用某种非参数测试对,例如KS检验,以查找给定分布是由不同PDF生成的可能性。我认为,使用曼哈顿距离的第一个选择(以上)将是使用该方法可能获得的一种上限(因为KS统计量是CDF差的最大绝对值,其中曼哈顿距离是PDF差异的绝对值之和)。然后,我考虑了可能使用欧几里得距离,但可能仅取所有这些值中的最大值来组合每个数据点内不同的KS统计量或P值。

  3. 最后,为了尽我所能解释的分布形状,我想我可能会尝试估计分布的参数以拟合Weibull曲线。然后,我可以基于Weibull分布的两个参数lambda和k(比例和形状)的差异对分布进行聚类,可能根据这些参数的差异或某种形式进行归一化。这是我认为可能对参数进行标准化的唯一情况。

所以我的问题是,对于集群分布,您会建议什么度量/方法?我甚至在这些方面都走对了吗?K-Means甚至是使用的好算法吗?

编辑:澄清数据。

每个数据点(Obj我要集群的每个对象)实际上都包含5 vectors数据。我知道这些对象可以进入5个阶段。(为简化起见)我们将说每个向量都属于length N

这些载体(称之为中的每一个vector i)是一个概率分布与整数x-values至N,其中每个对应的y值表示测量的概率1 value xphase i的对象Obj。那么N是我期望在对象的任何阶段测量的最大x值(在我的分析中,这实际上不是一个固定的数字)。

我通过以下方式确定这些概率:

  1. 我拿一个Obj,并把它phase ik trials,进行测量,在每次试验。每个度量都是一个整数。我对单个对象的5个阶段中的每个阶段都执行此操作,然后依次对每个对象执行此操作。我对单个对象的原始测量数据可能类似于:

    向量1。[90、42、30、9、3、4、0、1、0、0、1]

    向量2。[150,16,5,0,1,0,0,0,0,0,0]

    ...

    矢量5。[16,... ...,0]

  2. 然后,相对于该给定向量中的测量总数,我将每个向量单独归一化。这使我在该载体中,其中每一个对应的y值表示测量的概率的概率分布value xphase i


1
我不清楚您的数据点如何“包含”分布。你能举个例子吗?此外,威布尔不是离散的概率分布,因此需要一些额外的澄清。
mpiktas

@mpiktas:每个数据点代表一个具有5个不同阶段的对象。理论上,对象的每个阶段的行为都可以由连续概率分布函数表示,但是我的数据仅包含离散样本。威布尔分布可能是数据背后的“理论”函数,但数据本身仅是离散间隔内密度的度量。
渴望

Answers:


5

(计算)信息几何是一个专门处理此类问题的领域。K-means有一个称为Bregman k-means的扩展,它使用散度(标准K-means的平方欧几里得是特例,但Kullback-Leibler也是这样)。给定的散度与分布相关,例如,欧几里得平方到高斯平方。

您还可以对工作一看弗兰克·尼尔森,例如

您还可以查看Wasserstein距离(最佳运输),在上一篇文章中被称为Earth Mover Distance。


3

Henderson等人在有关EP-Means算法的论文中回顾了解决此问题的方法并给出了自己的解决方案。他们认为:

  1. 参数聚类-根据分布的先验知识确定分布的参数,并基于这些参数聚类
    • 请注意,您实际上可以在数据上使用任何功能,而不仅是参数估计值,如果您知道数据来自不同的分布,这将很有用
  2. 直方图合并-将数据分为多个容器,并将每个容器视为要在空间聚类中使用的维
  3. EP均值(他们的方法)-定义分布质心(分配给一个群集的所有分布的混合),并最小化地球移动者之间距离的平方和(类似于CDF之间的距离的期望值)。分布质心和分配给该群集的分布。L1

我成功使用的另一种技术是将所有分布中的所有观测点分别进行聚类,然后将分布在每个聚类中的点的比例与相应的软概率分配给分布i。不利的一面是,以这种方式分离发行版要困难得多。从好的方面来说,它会自动调整并假设所有分布都相同。不过,我只在需要该正则化属性时才使用它。


1
欢迎来到我们的网站!请注意,您可以在此处使用Latex标记,方法是将文本放在美元符号内,例如,$i$产生或产生,这可以使表达自己的文字更加容易2i$l_2$l2
Silverfish

1

您应该分两步进行。(1)数据精简和(2)聚类。

对于步骤(1),您应仔细检查数据并确定数据的合理概率分布。您似乎已经考虑过此步骤。下一步是估计这些分布的参数。您可以为要聚类的每个单元分别拟合模型,或者使用更复杂的模型(如广义线性混合模型)可能比较合适。

对于步骤(2),您可以根据这些参数估计值进行聚类。在此阶段,您应该每单位具有少量参数估计。如这篇文章的答案所述,然后可以基于这些参数估计值进行聚类。

这个答案一定有点含糊不清-这里没有“罐头”解决方案,并且每个步骤都需要大量的统计见解,才能根据您的独特问题从几乎无限数量的可能相关方法中进行选择。问题的陈述表明,您已经自学了很多统计知识,这是值得称赞的,但是您仍然对核心统计概念有一些基本的误解,例如,概率分布与观察值与概率分布之间的区别。考虑参加/审核一两个数理统计课程。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.