Questions tagged «clustering»

聚类分析是根据数据的相互“相似性”将数据划分为对象子集的任务,而无需使用诸如类标签之类的现有知识。[群集标准错误和/或群集样本应被标记为此类;不要为它们使用“集群”标签。]

4
您如何测试k均值的实现?
免责声明:我在Stackoverflow上发布了此问题,但我认为这可能更适合此平台。 您如何测试自己的多维数据集的k-means实现? 我正在考虑对数据运行一个已经存在的实现(即Matlab),并将结果与​​我的算法进行比较。但这将要求两种算法的工作原理大致相同,并且两种结果之间的映射可能并非易事。 你有更好的主意吗?

2
非常偏斜的群集,计数数据:有什么建议(转换等)?
基本问题 这是我的基本问题:我正在尝试将包含一些非常偏斜的变量与计数的数据集聚类。变量包含许多零,因此对于我的聚类过程不是很有帮助-这很可能是k-means算法。 很好,您说的是,只需使用平方根,Box Cox或对数转换变量即可。但是由于我的变量是基于分类变量的,所以我担心我可能会通过处理一个变量(基于分类变量的一个值)而使其他变量(基于分类变量的其他值)而产生偏差。 。 让我们更详细些。 数据集 我的数据集代表物品的购买。这些项目具有不同的类别,例如颜色:蓝色,红色和绿色。然后,例如由顾客将购买分组在一起。这些客户中的每一个都由我的数据集的一行代表,因此我必须以某种方式汇总客户的购买量。 我这样做的方式是通过计算购买次数,其中该商品是某种颜色。因此,而不是一个变量color,我结束了三个变量count_red,count_blue和count_green。 这是一个示例说明: ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | 4 | 0 | ----------------------------------------------------------- c2 | 2 | 21 | 0 | ----------------------------------------------------------- c3 | 4 …

1
如何自动将U-Matrix聚类?
训练完自组织图后,可以计算U-Matrix。有一些工具可以手动对其进行可视化并识别集群,但是我想知道是否有任何算法可以自动执行此过程(即,无需人工观察图形即可识别集群)。 有什么办法吗?我正在用R编写代码。在Internet上找不到任何类似的东西,因此也许有人可以在这里为我提供帮助。

3
我可以使用哪些统计方法来找到分类变量的流行或常见组合?
我正在研究多种药物的使用。我有一个包含400名吸毒者的数据集,每个人都陈述了他们滥用的药物。有10种以上的药物,因此可能有很大的组合。我将它们消耗的大多数药物重新编码为二进制变量(即,如果吸毒者滥用了海洛因,则海洛因为1,否则为0)。我想找到2或3种药物的流行或常见组合。我可以使用统计方法吗?

1
了解TF-IDF对数中对数的使用
我正在阅读: https://zh.wikipedia.org/wiki/Tf%E2%80%93idf#Definition 但是我似乎无法确切地理解为什么以这种方式构造公式。 我的理解: iDF应该在某种程度上衡量术语S在每个文档中出现的频率,并随着术语S出现频率的增加而降低其价值。 从这个角度来看 我d ˚F(S)= # 文献# 含S-文献一世dF(小号)=# 文件数量# 包含S的文档 iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}} 此外,术语“频率”可以正确地描述为 Ť ˚F(S,d )= #在文件d S的出现次数的 #文档D中任何字符串Q的最大出现次数 ŤF(小号,d)=# D中S的出现# 文档D中任何字符串Q的最大出现次数 tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences …

3
“ R”中图聚类的方法和示例
我正在寻找使用'r'中的图集群对图中的节点进行分组/合并。 这是我的问题的一个惊人的玩具变化。 有两个“集群” 有一个“桥”连接集群 这是一个候选网络: 当我查看连接距离(“跳数”)时,如果可以的话,我可以得到以下矩阵: mymatrix <- rbind( c(1,1,2,3,3,3,2,1,1,1), c(1,1,1,2,2,2,1,1,1,1), c(2,1,1,1,1,1,1,1,2,2), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,2,2), c(2,1,1,1,1,1,1,1,2,2), c(1,1,1,2,2,2,1,1,1,1), c(1,1,2,3,3,2,2,1,1,1), c(1,1,2,3,3,2,2,1,1,1)) 这里的想法: 幸运的是,或者由于玩具的简单性,矩阵具有明显的斑块(在(很大)矩阵中)就不会出现这种情况。如果我将点与行之间的关系随机化,那将不是那么干净。 我可能写错了-如果我有错字,请告诉我。 这里的跳数是连接第i行的点与第j列的点的最短跳数。自跳仍然是跳,因此对角线全为跳。 因此,在此矩阵中,较大的距离(跳跃数)具有较高的数字。如果我想要一个显示“连通性”而不是距离的矩阵,那么我可以做一个点逆,将矩阵的每个像元都替换为其乘性逆。 问题: 为了帮助我找到自己的方式: 通过组合它们来减少图上节点数的术语是什么?它是集群,合并,纠结吗?我应该使用什么词? 有哪些成熟的技术?是否有关于该主题的教科书?您可以指向论文或网站吗? 现在,我尝试首先看一下这里-这是一个不错的“首次检查”地点。我没有找到想要的东西。如果我错过了(不是不太可能),您能给我指出关于简历的一个或两个有关该主题的问题吗? 要带我去哪里: 是否有一个“ R”包可以正确群集网络上的节点? 您能指出我要执行此操作的示例代码吗? 是否有一个“ R”包可以图形化地显示缩小后的网络? 您能指出我要执行此操作的示例代码吗? 提前致谢。

1
我应该如何解释GAP统计信息?
我使用GAP统计信息来估算R中的k个聚类。但是,我不确定我是否解释得很好。 从上图可以看出,我应该使用3个群集。 从第二个图中,我应该选择6个群集。GAP统计信息的正确解释吗? 我将不胜感激。
10 clustering 


2
用于非参数聚类的PyMC:估计高斯混合参数的Dirichlet过程无法聚类
问题设定 我想将PyMC应用到的第一个玩具问题之一是非参数聚类:给定一些数据,将其建模为高斯混合,并学习聚类的数目以及每个聚类的均值和协方差。我对这种方法的大部分了解来自迈克尔·乔丹(Michael Jordan)和Yee Whye Teh(大约在2007年之前)的视频讲座(在稀疏成为流行之前),以及最近两天阅读Fonnesbeck博士和E. Chen的教程[fn1],[ fn2]。但是问题已得到充分研究,并且具有一些可靠的实现方式[fn3]。 在这个玩具问题中,我从一维高斯生成十次抽奖,并从。正如您在下面看到的那样,我没有对抽奖进行混洗,以便于分辨哪个样品来自哪个混合成分。N(μ = 4 ,σ = 2 )N(μ=0,σ=1)N(μ=0,σ=1)\mathcal{N}(\mu=0, \sigma=1)N(μ=4,σ=2)N(μ=4,σ=2)\mathcal{N}(\mu=4, \sigma=2) 我对每个数据样本进行,,其中表示该第个数据点的聚类:。是使用的截短Dirichlet进程的长度:对我来说,。我= 1 ,。。。,50 ž 我我ž 我 ∈ [ 1 ,。。。,N D P ] N D P N D P = 50yi∼N(μzi,σzi)yi∼N(μzi,σzi)y_i \sim \mathcal{N}(\mu_{z_i}, \sigma_{z_i})i=1,...,50i=1,...,50i=1,...,50ziziz_iiiizi∈[1,...,NDP]zi∈[1,...,NDP]z_i \in [1,...,N_{DP}]NDPNDPN_{DP}NDP=50NDP=50N_{DP}=50 扩展Dirichlet流程基础结构,每个集群ID都是来自分类随机变量的图形,其随机变量的质量函数由结构给出:带有的a浓度参数。折断构造通过首先获得依赖于 Beta分布的 iid Beta分布绘制,构造必须为1 的长向量,请参见[fn1]。并且由于我想通过数据告知我对了解,因此我遵循[fn1]并假定 0.3,100。ž 我〜Ç 一吨ë …

3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …

2
寻找已知数量的圆心,以最大化固定距离内的点数
我有一组二维数据,我想在其中找到指定数量的圆心()的中心,这些圆使指定距离()内的点总数达到最大。NNNRRR 例如,我有10,000个数据点,我想找到圆的中心,它们在的半径内捕获了尽可能多的点。预先给出了5个中心和10个半径,而不是从数据中得出的。(Xi,Yi)(Xi,Yi)(X_i, Y_i)N=5N=5N=5R=10R=10R=10 圆内数据点的存在是二进制“或”或“命题”。如果,则相距11个单位与100个单位之外的点的值没有差异,因为它们都>10。类似地,在圆内,靠近中心与靠近边缘也没有任何附加值。 。数据点在圆圈之一中或不在圆圈中。R=10R=10R=10 是否有一个好的算法可以用来解决这个问题?这些似乎与聚类技术有关,但不是最小化平均距离,如果该点在个点中的任意一个点的内,则“距离”函数为0 ,否则为1。RRRNNN 我更喜欢在R中找到一种方法来执行此操作,但是任何方法都是可以理解的。
10 r  clustering  distance 

1
低轮廓宽度是否意味着数据几乎没有底层结构?
我是序列分析的新手,我想知道如果基于最优匹配的不相似矩阵的聚类分析的平均轮廓宽度(ASW)低(约25),您将如何应对?可以得出这样的结论:似乎几乎没有底层结构可以使序列聚类,这似乎很合适吗?您是否可能会忽略基于群集质量其他度量的较低的ASW(我在下面粘贴了一些内容)?还是在序列分析或后续聚类分析过程中做出的选择可能是造成低ASW数量的原因? 任何建议,将不胜感激。谢谢。 如果需要更多上下文: 我正在研究20多岁之间的624个工时不匹配序列(即,一个人喜欢在一周内工作的小时数与他们实际工作的小时数之间的不匹配)。我正在检查的所有序列的长度都为10。我的序列对象具有五个状态(M =想要更多的小时,S =想要相同的小时,F =想要更少的小时,O =劳动力不足,U =失业) )。 我没有对ASW结果如何随方法的不同组合而变化进行系统的说明。尽管如此,我还是尝试了中低indel成本(最大替代成本的.1和.6,我更关心事件的顺序,而不是它们的时间安排)和不同的聚类过程(病房,平均数和pam)。我的总体印象是ASW数量仍然很低。 较低的ASW结果可能是有道理的。我希望这些状态以各种不同的顺序出现,并且这些状态可以重复。删除重复的观测值只会将N从624降低到536。研究数据表明,确实存在很多变化和顺序,我认为这非常不同,例如,人们一直想要相同的时间,出现了不匹配的情况,解决了失配,并且在有失配与没有失配之间来回摆动。也许缺少清晰区分的集群与缺少有趣的变化不是一回事。但是,较弱的聚类结果似乎使我无法很好地总结序列。 Ward方法的结果,插入缺失设置为0.1的替代成本为2。这些统计数据似乎表明6聚类解决方案可能很好。但是,ASW很低-至少对于群集数量合理的解决方案(2或3太少)。 PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14 cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17 cluster4 0.54 0.74 0.71 0.25 …

2
评估一阶马尔可夫链的聚类
我将数千个一阶马尔可夫链的数据集聚为大约10个聚类。 有什么推荐的方法可以评估这些集群,并找出集群中的项目共享以及它们与其他集群有何不同?因此,我可以这样说:“集群A中的进程一旦到达状态,往往会保持在状态Y,而其他集群中的进程则不是如此。” 这些马尔可夫链的过渡矩阵太大,以至于无法“看得见”。如果可以的话,它们相对稀疏。 我的想法是将所有过渡矩阵汇总为一个簇,对其求和并将其绘制为图片中的强度(从0到255的比例)。还有什么我应该尝试的“专业”吗?

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
树状图聚类的词法相关
考虑树状图聚类的上下文。让我们称原始差异为个体之间的距离。构建完树状图后,我们将两个个体之间的同态差异定义为这些个体所属的簇之间的距离。 有人认为,原始差异和同类差异之间的相关性(称为“ 相关性相关性”)是分类的“适用性指标”。这听起来让我很困惑。我的反对意见不依赖于Pearson相关性的特定选择,而是基于这样的一般思想,即原始差异和同义差异之间的任何联系都可能与分类的适用性有关。 您是否同意我的观点,或者您是否可以提出一些论点来支持使用cophenetic相关性作为树状图分类的适用性指标?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.