关于无监督学习问题中的降维,我有几点想法。在回答时,我假设您的兴趣是“高度接触”,人为参与的集群解释,而不是故意不强调解释的自动化,交钥匙,黑匣子和“低接触”机器学习方法。如果是后者,您为什么还要问这个问题?另外,请注意,多年来,我在众多商业环境中运行群集解决方案方面拥有大量经验,包括战略性B2C营销,B2B技术领域和教育政策(为学生和学校提供集群)。
首先,我确实有一个关于您对“分组不同数据集”的评论的问题。我不知道您的意思是什么,或者它可能对方法产生什么影响,并希望您能详细说明。
我想挑战您在以上#1中的假设,即基于PCA的解决方案“难以解释”。在许多聚类算法对特征冗余敏感的情况下,甚至将PCA作为聚类的第一步的原因都与最终解决方案的卫生性有关。PCA将这种冗余分解为可管理的少量组件,从而最大程度地减少了您注意到的有关功能选择的挑战和困难。虽然PCA输出的组件确实模糊了单个功能的粒度和特异性,但这是一个问题,如果您仅依靠对那些组件进行分析的结果。换句话说,您不会以任何方式只使用组件进行集群解释。不仅如此,您甚至不必关心因素维度的“均值”。它们只是中间的(最终)一次性的手段,可以促进可行的解决方案。但是,在提出这一点时,我与许多实践者有所不同,因为团队可以,愿意并且确实花费数周的时间精心构建一个“有意义的”因素解决方案。对我来说,这是对客户时间和金钱的低效率浪费。
此时,将要解决大量技术问题。例如,如果您的PCA算法不是比例不变的(例如OLS vs ML),那么任何所得的PCA解决方案都会失真,从而在高方差特征上的负担更大。在这些情况下,您的特征需要以某种方式进行预处理或转换,以消除这种差异。这里有很多可能性,包括均值标准化,范围或IQR标准化,渐进式缩放等。利用这种转换提供最佳,最可解释的解决方案。
生成集群解决方案后,以我的经验而言,最好的解释方法是忽略这些组件,并折回原始功能以及未在解决方案中直接使用的任何其他描述性信息。在这一点上,一些启发式方法是定性洞察力的最佳指南。这就像生成一个电子表格一样简单,该电子表格可以根据每个要素(工作表的行),每个聚类(列)的平均值或中位数对聚类进行概要分析,以及一个附加列来代表总样本的均值。然后,通过将每个特征的聚类平均值与总体均值建立索引(并乘以100),就可以创建一种启发式方法,就像IQ得分一样,因为大约“ 100”是“正常” IQ或平均行为,120+的索引表明某个特征对群集的行为“真实”的可能性很高,而80或更低的索引表示该群集的特征“不真实”。对于给定功能在驱动解决方案中的重要性,这些120+和80或更小的指数类似于代理t检验。当然,您可以在重要性的组测试之间运行,并且根据样本量,将获得围绕这些快速而肮脏的经验法则而变化的答案。
好吧...毕竟,假设您仍然反对将PCA用作聚类算法的直接输入,那么问题仍然在于如何选择一组简化的功能。PCA在这里仍然有用,因为PCA就像在没有因变量的情况下进行回归一样。每个组件上的顶部加载功能都可以成为聚类算法的输入。
关于大量功能和相对较小的数据样本量,许多“完整信息”多元分析中的经验法则通常是每个功能至少观察10次。有一些专门的方法可以用来应对这一挑战。例如,赫尔曼·沃尔德(Herman Wold)在其1990年出版的《理论经验主义》一书中首次开发了偏最小二乘(PLS),用于面临这一精确问题的化学计量学领域。它本质上是因子分析的,但在要求较大的n生成维数方面没有那么严格。其他解决方案包括类似随机森林的“分而治之”,使用大量信息的机器学习方法。这些方法在本pdf中进行了回顾http://www.wisdom.weizmann.ac.il/~harel/papers/Divide%20and%20Conquer.pdf
但是,假设您已经决定仍然不希望与因子分析相关联,并且对运行某种监督的“顺序”选择过程一无所知。在我看来,最重要的问题不是寻找事后绩效指标(Dunn索引),而是确定合适的代理(因变量)以使这种方法成为可能。该决定完全取决于您的判断,并且取决于您的数据的SME状况。没有“最佳实践”,对此没有那么简单的答案,并且鉴于您如何描述数据,这也是不小的挑战。
一旦做出决定,便有数百种可能的变量选择解决方案可供选择。变量选择是每个统计学家及其兄弟都发表过论文的主题领域。您首选的方法似乎是“顺序正向选择”很好。
值得注意的是,存在监督学习模型,该学习模型作为算法的一部分在集群解决方案中折叠。这样的示例包括称为潜在类模型的大型且高度灵活的方法。LC模型的实质是两个阶段:在第一阶段中,定义了DV,并建立了回归模型。在第二阶段,将模型的剩余输出中的任何异质性(单个潜在矢量)划分为潜在“类”。这里的CV讨论中有LC建模的概述... 潜在类多项式logit模型的疑问
希望这可以帮助。