用R聚类混合数据

19

我想知道是否可以在R中执行具有混合数据变量的数据聚类。换句话说，我有一个同时包含数值和分类变量的数据集，我正在寻找对其进行聚类的最佳方法。在SPSS中，我将使用两步式群集。我想知道是否可以在R中找到类似的技术。有人告诉我有关poLCA软件包的信息，但我不确定...

r clustering mixed-type-data

— 乔治·斯佩迪卡托（Giorgio Spedicato）
source

1

是不是SPSS两步专为处理大型数据集？（我在这里提供对相关问题的答复。）否则，我的答复是否可以将主成分分析应用于包含连续变量和分类变量的数据集？有什么帮助吗？

— chl 2012年

在R包簇中，有雏菊将为混合数据创建一个不相似矩阵（Gower相似系数）。然后，您可以使用标志或其他群集功能。

— rhonda 2013年

1

不要将方法与实现混淆。首先寻找合理的聚类算法。然后寻找实现它的R包。

— Shadowtalker

可以使用高尔相似性。

— ttnphns

@gung最近关闭了我问过的一个非常类似的问题。有人告诉我我的问题不重要，因为它主要涉及软件。这似乎与软件类似。我很想知道为什么这里的规则执行得不一致。请注意，我认为这个问题是有益的，但是规则应该是规则。

— 吴伟文

Answers:

8

这可能会迟到，但请尝试使用klaR（http://cran.r-project.org/web/packages/klaR/index.html）

install.packages("klar")

它使用基于简单匹配作为距离函数的非分层k模式算法，因此两个数据点和的变量m之间的距离δ 由下式给出： $x$ $y$

δ (x_{m}, y_{m}) = {\begin{cases} 1 & x_{m} \neq y_{m}, \\ 0 & otherwise \end{cases}

$\delta(x_m,y_m) = \begin{cases} 1 & x_m \neq y_m,\\ 0 & \text{otherwise} \end{cases}$

程序包存在一个缺陷，即如果两个数据点到群集中心的距离相同，则选择数据中的第一个而不是随机点，但是您可以轻松地修改代码中的位。

为了适应混合变量聚类，您将需要进入代码并修改距离函数，以识别数字和非数字模式以及变量。

— victor_v
source

7

处理混合类型变量的另一种有吸引力的方法是使用随机森林中的近似/相似矩阵：http ://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf 。这有助于平等对待所有变量的统一方法（尽管如此，请注意变量选择偏差问题）。另一方面，实际上没有定义混合类型变量距离的黄金通用方法。这完全取决于应用程序上下文。

— XGS
source

4

您可以使用多重对应关系分析从分类变量创建连续维，然后在第二步中将它们与数字变量一起使用。

— ftr
source

1

您将如何在MCA中处理数值变量？使用离散化？

— chl 2012年

MCA的扩展可以包括连续变量，请参见例如均一性分析homals

— kjetil b halvorsen

3

好吧，你当然可以。通过使分类变量成为人工数值。或者使用基于距离矩阵的聚类（fpc可以做到这一点）。您首先要回答的问题是：它实际上有意义吗？

— Anony-Mousse-恢复莫妮卡
source

3

您可以使用Gower的通用相似系数（请参见Sneath＆Sokal 1973，第135-136页），对于两个OTU和，对于所有字符。 $j$ $k$

S_{G} = \frac{\sum_{i = 1}^{n} w_{i, j, k} s_{i, j, k}}{\sum_{i = 1}^{n} w_{i, j, k}}

$S_G = \frac{\sum_{i=1}^n{w_{i,j,k} s_{i,j,k}}}{\sum_{i=1}^n{w_{i,j,k}}}$

i

$i$

权重为1或0，具体取决于比较是否有效（缺少数据，两个OTU中都没有二进制字符）。已经发布了更复杂的称重方案。 $w_{i,j,k}$

$s_{i,j,k}$ 计算为

二进制变量：1表示一致性，0表示不一致（如果设置为0表示一致则等于Jaccard系数） $w_{i,j,k}$
多状态字符（标称或有序）：1表示相等，0表示其他（等于简单匹配系数）
基本字符：其中是字符的范围（在总体中还是在这个样本）。 $s_{i,j,k} = 1 - \frac{|X_{i,j} - X_{i,k}|}{R_i}$ $R_i$ $i$

关于是它不仅可以处理所有类型的数据，而且对于丢失数据也很健壮。这也导致了正半确定相似矩阵，即OTU由Euklidian空间中的点表示（至少如果没有太多数据，则丢失）。 $S_G$

OTU之间的距离可以用 $\sqrt{1-S_G}$

— 恩格伯特·巴克斯鲍姆
source

您能否在答案中定义什么是“字符”（和“基本字符”）？这是否意味着变量/属性/功能？此外，我可能会补充说，可以针对序数变量计算Gower，而无需将其视为名义变量（“多状态”），请参见。

— ttnphns

角色，变量，特征都是同义词。基数指间隔或有理数表。

— Engelbert Buxbaum

感谢您的声明。我刚刚问，因为您的术语在统计或机器学习中显然不是很常见：“字符”很不寻常，您所谓的“基数”变量类型通常称为“标度”变量，又称为“度量”变量，它与类别变量相反。

— ttnphns

1

如果分类变量的可能值不是太多，那么您可能会考虑从这些值中创建二进制变量。您可以将这些二进制变量视为数字变量，然后运行聚类。那就是我为我的项目所做的。

— 拉格文德拉
source

1

k型聚类可能更适合此处。它结合了k模式和k均值，并且能够聚类混合的数字/分类数据。对于R，使用包'clustMixType'。

https://cran.r-project.org/web/packages/clustMixType/clustMixType.pdf

— 普拉珊斯
source

0

VarSelLCM 套餐优惠

基于模型的缺少值的混合类型数据集聚类的变量选择

关于CRAN，并在纸上作更多描述。

与某些先前方法相比的优势在于，它在选择群集数量和处理丢失数据方面提供了一些帮助。提供的漂亮闪亮的应用程序也不会皱眉。

— 拉德克
source

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.

Licensed under cc by-sa 3.0 with attribution required.