潜在类分析与聚类分析-推断的差异?


30

潜在类分析(LCA)与聚类分析可得出的推断有何区别?LCA假设一个潜在的潜在变量会引起这些类,而聚类分析是对聚类算法中相关属性的经验描述,这是正确的吗?似乎在社会科学中,LCA已得到普及,并且由于它具有正式的卡方显着性检验而在方法论上被认为是优越的,而聚类分析则没有。

如果能够以以下形式提供示例,那就太好了:“ LCA适合于此(但不适合聚类分析),聚类分析适合于此(但不适合潜在类别分析)。

谢谢!布赖恩


1
inferences在这种情况下,您怎么称呼?为什么只有推理上的差异会让您感兴趣?
ttnphns 2014年

1
@ttnphns通过推论,我指的是对结果的实质性解释。我不确定您的问题的后半部分是否对我的兴趣感兴趣,即“仅推断差异?” 我对执行各自的算法或基础数学不感兴趣。我对如何解释结果感兴趣。
Brian P

Answers:


27

潜在类分析实际上是有限混合模型(请参阅此处)。FMM与其他群集算法之间的主要区别在于FMM为您提供了一种“基于模型的群集”方法,该方法使用描述数据分布的概率模型来派生群集。因此,可以使用描述数据分布的模型,而不是使用某些选定的距离度量来查找聚类,并根据该模型来评估某些情况是某些潜在类的成员的概率。因此,您可以说这是一种自上而下的方法(从描述数据的分布开始),而其他聚类算法则是自下而上的方法(您发现案例之间的相似性)。

因为您使用统计模型进行数据模型选择,并且可以评估拟合优度-与聚类相反。另外,如果您假设有某种过程或“潜在结构”作为数据结构的基础,那么FMM似乎是一个适当的选择,因为它们使您能够在数据背后建模潜在结构(而不​​是寻找相似性)。

另一个区别是FMM比群集更灵活。聚类算法只是进行聚类,而基于FMM和LCA的模型

  • 使您能够进行验证性的小组间分析,
  • 将项目响应理论(和其他)模型与LCA相结合,
  • 包括协变量以预测个人的潜在阶级成员身份,
  • 和/或什至是潜在类别回归中的群内回归模型,
  • 使您能够建模随时间变化的数据结构等。

有关更多示例,请参见:

Hagenaars JA&McCutcheon,AL(2009)。应用的潜在类别分析。剑桥大学出版社。

以及R中的flexmixpoLCA软件包的文档,包括以下论文:

Linzer,DA和Lewis,JB(2011)。poLCA:用于多变量变量潜在类分析的R包。统计软件杂志,42(10),1-29。

Leisch,F.(2004年)。Flexmix:R。R.中的有限混合物模型和潜伏玻璃回归的通用框架。Journal of Statistics Software,11(8),1-18。

Grün,B.,&Leisch,F.(2008年)。FlexMix版本2:具有伴随变量以及变化和恒定参数的有限混合。统计软件杂志,28(4),1-35。


3

潜在类模型(或潜在特征,或更笼统地说是有限混合模型)可以被认为是用于聚类(或无监督分类)的概率模型。目标通常是相同的-识别较大人群中的同质群体。我认为潜在类模型和聚类的算法方法之间的主要区别在于,前者显然有助于对聚类的性质进行更多的理论推测。并且由于潜在类模型是概率模型,因此它为通过可能性统计评估模型拟合提供了其他选择,并更好地捕获/保留了分类中的不确定性。

您可能会在此线程中找到一些有用的花絮,以及chl的相关文章中的答案

关于PCA与因子分析的问题在概念上也有相似之处,这一点也是如此。


2

区别在于,潜在类分析将使用隐藏数据(通常是要素中的关联模式)来确定类中要素的概率。然后可以使用最大似然进行推断,以根据项目的特征将项目分为几类。

聚类分析绘制特征并使用算法(例如最近邻,密度或层次结构)来确定项目属于哪个类别。

基本上,LCA推论可以被认为是“使用概率最相似的模式是什么”,而聚类分析可以是“使用距离最接近的东西是什么”。


您能否阐明关于聚类分析的陈述中的“事物”是什么?它是基于距离度量的最接近的“特征”吗?
Brian P

事物将是对象,对象或您使用特征参数输入的任何数据。
ccsv 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.