Questions tagged «clustering»

聚类分析是根据数据的相互“相似性”将数据划分为对象子集的任务,而无需使用诸如类标签之类的现有知识。[群集标准错误和/或群集样本应被标记为此类;不要为它们使用“集群”标签。]

2
R中的非参数贝叶斯分析
我正在寻找有关R使用分层狄利克雷过程(HDP)(最近和流行的非参数贝叶斯方法之一)中的数据聚类的良好教程。 非参数贝叶斯分析有DPpackage(恕我直言,是所有可用方法中最全面的)R。但是我无法充分理解R News软件包参考手册中或软件包参考手册中提供的示例来编写HDP。 任何帮助或指针,表示赞赏。 此处提供了用于主题建模的HDP的C ++实现(请在底部查看C ++代码)

1
Python中的Jenks自然断裂:如何找到最佳断裂数目?
我找到了Jenks Natural Breaks算法的这个Python实现,可以使其在Windows 7计算机上运行。考虑到我的地理数据的大小,它非常快并且可以在很短的时间内找到中断点。在将这种聚类算法用于数据之前,我使用的是(此处)算法。我使用KMeans遇到的问题是找到最佳K值参数,但是我“解决”了它,针对不同的K值启动了算法,并使用(此处)找到了最佳K。sklearn.clustering.KMeans sklearn.metrics.silhouette_score 我的问题是:如果我告诉Natural Breaks算法找到5个类(即K),那么如何确定这是最匹配我的数据的类数?如何验证我选择了最佳的休息时间? 谢谢!


5
为什么k-均值不给出全局最小值?
我读到k-means算法仅收敛到局部最小值,而不收敛到全局最小值。为什么是这样?我可以从逻辑上考虑初始化如何影响最终的聚类,并且存在次优聚类的可能性,但是我没有找到任何可以从数学上证明这一点的东西。 另外,为什么k-means是一个迭代过程?我们不能仅将目标函数wrt与质心进行部分区分,将其等于零以找到使该函数最小化的质心吗?为什么我们必须使用梯度下降来逐步达到最小?


3
如果不是Ward的标准,hclust()中的ward.D将执行哪种算法?
选项“ ward.D”(相当于R版本<= 3.0.3中唯一的Ward选项“ ward”)使用的选项不实现Ward(1963)的聚类标准,而选项“ ward.D2”实现该标准( Murtagh and Legendre 2014)。 (http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html) 显然,ward.D未能正确执行Ward的标准。尽管如此,它似乎在产生的聚类方面做得很好。如果不是Ward的标准,method =“ ward.D”会实现什么? 参考文献 Murtagh,F.,&Legendre,P.(2014年)。沃德的层次聚类聚类方法:哪些算法实现沃德准则?分类杂志,31(3),274-295。
16 r  clustering  ward 

4
聚类一维数据
我有一个数据集,我想基于一个变量(没有缺失值)在该数据上创建聚类。我想基于该变量创建3个群集。 使用哪种聚类算法,k均值,EM,DBSCAN等? 我的主要问题是,在什么情况下我应该在EM上使用k-means还是在k-means上使用EM?
16 clustering 

2
我们何时将降维与聚类结合在一起?
我正在尝试执行文档级群集。我构建了术语文档频率矩阵,并尝试使用k均值对这些高维向量进行聚类。我所做的不是直接聚类,而是首先应用LSA(潜在语义分析)奇异矢量分解来获得U,S,Vt矩阵,然后使用scree图选择合适的阈值,然后对归约矩阵进行聚类(特别是Vt,因为它给了我一个概念文件信息),似乎给了我很好的结果。 我听说有人说SVD(奇异矢量分解)正在聚类(通过使用余弦相似性度量等),并且不确定是否可以在SVD的输出上应用k-均值。我认为这在逻辑上是正确的,因为SVD是降维技术,为我提供了许多新矢量。另一方面,k均值将采用簇数作为输入,并将这些向量划分为指定的簇数。这个程序有缺陷吗,或者有什么方法可以改进?有什么建议么?

4
聚类分析的假设
对于基本问题,我很抱歉这种分析形式,并且到目前为止对原理的理解非常有限。 我只是想知道多变量/单变量测试的许多参数假设是否适用于聚类分析?我已经阅读了许多有关聚类分析的信息资源,但未指明任何假设。 我对观察独立性的假设特别感兴趣。我的理解是,违反此假设(例如在ANOVA和MAVOVA中)很严重,因为它会影响误差估计。从到目前为止的阅读来看,聚类分析似乎主要是一种描述性技术(仅在某些特定情况下涉及统计推断)。因此,是否需要诸如独立性和正态分布数据之类的假设? 任何讨论此问题的文章的建议,将不胜感激。非常感谢。

1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …


4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
文本挖掘:如何通过人工智能将文本(例如新闻文章)聚类?
我为不同的任务建立了一些神经网络(MLP(完全连接),Elman(递归)),例如打Pong,对手写数字和东西进行分类... 另外,我尝试建立一些第一个卷积神经网络,例如用于对多位数的手写笔记进行分类,但是我是全新的分析和聚类文本的人,例如在图像识别/聚类任务中,人们可以依靠标准化输入,例如25x25大小的图像, RGB或灰度等...有很多预设定功能。 对于文本挖掘(例如新闻报道),您需要不断变化的输入大小(不同的单词,不同的句子,不同的文本长度等)。 如何利用人工智能(最好是神经网络/ SOM)实现一种现代的文本挖掘工具? 不幸的是,我无法找到简单的入门教程。复杂的科学论文难以阅读,也不是学习主题的最佳选择(就我个人而言)。我已经阅读了很多有关MLP,辍学技术,卷积神经网络等的论文,但是我找不到关于文本挖掘的基础文章-对于我非常有限的文本挖掘技能来说,我发现的水平太高了。

2
如何拟合混合模型以进行聚类
我有两个变量-X和Y,我需要使簇最大(最优)=5。让我们理想的变量图如下所示: 我想做5个这样的集群。像这样: 因此,我认为这是具有5个群集的混合模型。每个聚类都有中心点和围绕它的置信度。 这些簇并不总是这样,它们看起来如下所示,其中有时两个簇靠在一起,或者一个或两个簇完全缺失。 在这种情况下如何有效地拟合混合模型并进行分类(聚类)? 例: set.seed(1234) X <- c(rnorm(200, 10, 3), rnorm(200, 25,3), rnorm(200,35,3), rnorm(200,65, 3), rnorm(200,80,5)) Y <- c(rnorm(1000, 30, 2)) plot(X,Y, ylim = c(10, 60), pch = 19, col = "gray40")

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.