Questions tagged «clustering»

聚类分析是根据数据的相互“相似性”将数据划分为对象子集的任务,而无需使用诸如类标签之类的现有知识。[群集标准错误和/或群集样本应被标记为此类;不要为它们使用“集群”标签。]

3
用K-Means和EM进行聚类:它们之间有何关系?
我研究了用于对数据进行聚类(无监督学习)的算法:EM和k-means。我继续阅读以下内容: k-means是EM的一种变体,假设簇是球形的。 有人可以解释以上句子吗?我不了解球形的含义,以及kmeans和EM之间的关系,因为一个以概率方式进行分配,而另一个以确定性方式进行。 另外,在哪种情况下使用k均值聚类更好?或使用EM群集?


3
是否可以基于曲线形状进行时间序列聚类?
我具有一系列网点的销售数据,并希望根据其随时间变化的曲线形状对其进行分类。数据大致如下所示(但显然不是随机的,并且有一些丢失的数据): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, 200) new.df <- data.frame( var0 = interval + c(0, cumsum(runif(49, -5, 5))), date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters), store = rep(paste("Store", i, sep=""), n.quarters)) if (exists("test.data")){ test.data <- rbind(test.data, new.df) } …

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 


5
在集群之前扩展数据是否重要?
我找到了本教程,它建议您在聚类之前对要素运行比例函数(我相信它将数据转换为z分数)。 我想知道这是否必要。我问的主要是因为当我不缩放数据时有一个不错的弯头,但是当缩放时它消失了。:)

8
如何在加权社交网络/图中进行社区检测?
我想知道是否有人可以建议对具有加权,无向边的图形执行社区检测/图形分区/聚类。所讨论的图形大约有300万个边,每个边都表示其连接的两个顶点之间的相似度。特别地,在该数据集中,边缘是个体,顶点是对其观察到的行为的相似性的度量。 过去,我遵循了一个建议,即在stats.stackexchange.com上到达这里,并使用igraph的纽曼模块化聚类的实现,并对结果感到满意,但这是在未加权的数据集上。 我应该看什么特定的算法?

5
动态时间规整聚类
使用动态时间规整(DTW)进行时间序列聚类的方法是什么? 我已经读过有关DTW的方法,该方法可以找到两个时间序列之间的相似性,而它们可能会随时间变化。我可以将这种方法用作k-means等聚类算法的相似性度量吗?

5
R中的时间序列“聚类”
我有一组时间序列数据。尽管每个时间序列中的实际日期可能并不都完全“排队”,但每个序列都涵盖相同的时期。 这就是说,如果将时间序列读入2D矩阵,它将看起来像这样: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A 12 36.82 4/1/01 N/A 59 40 61.82 5/1/01 05 99 42 23.68 ... 31/12/01 100 59 42 N/A etc 我想编写一个R脚本,将时间序列{T1,T2,... TN}分离为“家庭”,其中一个家庭被定义为一系列“趋于彼此同情”的系列。 对于“聚类”部分,我将需要选择/定义一种距离度量。我不确定如何处理此问题,因为我正在处理时间序列,并且一对可能在一个间隔内同情移动的序列可能不会在随后的间隔内这样做。 我敢肯定,这里有比我更多的有经验/聪明的人,因此,对于任何建议,关于用于距离度量的算法/启发式方法以及如何在时间序列聚类中使用该算法/方法的想法,我将不胜感激。 我的猜测是,尚无成熟的统计方法来执行此操作,因此,我将非常有兴趣了解人们如何处理/解决此问题-像统计学家一样思考。

3
如何选择聚类方法?如何验证集群解决方案(以保证方法的选择)?
聚类分析的最大问题之一是,当基于使用的不同聚类方法(包括分层聚类中的不同链接方法)时,我们可能不得不得出不同的结论。 我想知道您对此的看法- 您将选择哪种方法以及如何选择。有人可能会说“最好的集群方法是为您提供正确的答案”;但我可能会回答,聚类分析应该是一种无监督的技术-那么我怎么知道哪种方法或链接是正确的答案? 总的来说:单独的集群是否足够强大才能依靠?还是我们需要第二种方法并获得基于这两种方法的共享结果? 我的问题不仅涉及验证/评估聚类性能的可能方法,而且涉及范围更广- 我们在什么基础上选择/优先于一种聚类方法/算法。另外,在选择一种对数据进行聚类的方法时,是否应该注意一些常见的警告? 我知道这是一个非常笼统的问题,很难回答。我只想知道您是否对我有任何意见或建议或建议,以了解更多信息。


4
如何解释轮廓图的均值?
我正在尝试使用轮廓图来确定数据集中的聚类数量。给定数据集Train,我使用以下matlab代码 Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` 下面将得到的曲线图,给出与x轴作为簇的簇号和Y轴平均轮廓值。 我如何解释该图?我该如何确定群集的数量?

3
为什么不将t-SNE用作聚类或分类的降维技术?
在最近的一项作业中,我们被告知在MNIST数字上使用PCA将尺寸从64(8 x 8图像)减小到2。然后,我们不得不使用高斯混合模型对数字进行聚类。仅使用2个主要成分的PCA不会产生不同的聚类,因此该模型无法产生有用的分组。 但是,使用带有2个组件的t-SNE,可以更好地分离群集。当将高斯混合模型应用于t-SNE组件时,会产生更多不同的簇。 在下面的图像对中,可以看到具有2个分量的PCA和具有2个分量的t-SNE的差异,其中将变换应用于MNIST数据集。 我已经读到t-SNE仅用于高维数据的可视化(例如在此答案中),但是鉴于其产生的簇不同,为什么不将其用作降维技术,然后将其用于分类模型或一个独立的群集方法?

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
(为什么)Kohonen风格的SOM失宠了?
据我所知,Kohonen风格的SOM早在2005年就达到了顶峰,最近并未受到太大的欢迎。我还没有发现任何文章说SOM被另一种方法包含,或被证明等同于其他方法(无论如何,在更大的维度上)。但是,看起来tSNE和其他方法如今越来越多了,例如在Wikipedia或SciKit Learn中,SOM被更多地称为历史方法。 (实际上,维基百科的文章似乎表明SOM仍比竞争对手具有某些优势,但它也是列表中最短的条目。编辑:Per gung的要求,我正在考虑的文章之一是:非线性降维请注意,与其他方法相比,SOM的文字更少。我找不到找到提到SOM似乎比大多数其他方法都具有优势的文章。) 有什么见解吗?有人问为什么不使用SOM,并在不久前得到了参考,我从SOM会议中找到了议事日程,但我想知道SVM或tSNE等的兴起是否使SOM在流行机器学习中黯然失色。 编辑2:纯属巧合,我今天晚上只读了2008年关于非线性降维的调查,仅举例说明了:Isomap(2000),局部线性嵌入(LLE)(2000),Hessian LLE(2003),Laplacian本征图(2003)和半定嵌入(SDE)(2004)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.