Questions tagged «clustering»

聚类分析是根据数据的相互“相似性”将数据划分为对象子集的任务,而无需使用诸如类标签之类的现有知识。[群集标准错误和/或群集样本应被标记为此类;不要为它们使用“集群”标签。]

2
在多问题考试中检测作弊方式
题: 我有关于考试题的二进制数据(正确/不正确)。一些人可能事先有问题的一部分和正确答案。我不知道是谁,多少或哪个。如果没有作弊,则假设我将对项目做出正确响应的概率建模为,其中代表问题难度,是个人的潜在能力。这是一个非常简单的项目响应模型,可以使用R中ltm的rasch()之类的函数进行估算。除了潜在变量的(其中索引个体)之外,我还可以访问单独的估算值\ hat {q} _j升ø 克我吨((p 我 = 1 | Ž ))= β 我 + ž β 我 Ž Ž Ĵ Ĵ q Ĵ一世一世i升Ø克我吨((p一世= 1 |ž))= β一世+ z升ØG一世Ť((p一世=1个|ž))=β一世+žlogit((p_i = 1 | z)) = \beta_i + zβ一世β一世\beta_ižžzž^Ĵž^Ĵ\hat{z}_jĴĴjq^Ĵq^Ĵ\hat{q}_j 相同潜变量的变量,这些变量是从另一个不可能作弊的数据集中得出的。 目的是确定可能被欺骗的个人及其被欺骗的物品。您可能会采取哪些方法?除了原始数据之外,β^一世β^一世\hat{\beta}_i,ž^Ĵž^Ĵ\hat{z}_j和q^Ĵq^Ĵ\hat{q}_j都可用,尽管前两个由于作弊会有所偏差。理想情况下,解决方案将采用概率聚类/分类的形式,尽管这不是必需的。实践思想和形式方法都受到高度欢迎。 到目前为止,我已经比较了q^Ĵ- ž^Ĵq^Ĵ-ž^Ĵ\hat{q}_j -\hat{z}_j 分数较高或较低的成对个体的问题分数的相关性(其中q^Ĵ- ž^Ĵq^Ĵ-ž^Ĵ\hat{q}_j - \hat{z}_j 为他们被骗的可能性的粗略指标)。例如,我用\ hat {q} _j-\ hat …

5
每个聚类具有相同数量点的聚类过程?
我在有一些点,并且我想将这些点聚类,以便:X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p 每个簇包含相等数量的元素。(假设簇数除以。)XXXnnn 每个聚类在某种意义上都是“空间内聚的”,就像来自均值的聚类一样。kķk 很容易想到很多满足其中一个或另一个要求的聚类过程,但是没有人知道同时获得两者的方法吗?

3
从数据库确定不同的一维数据集群
我有一个数据库表,用于不同节点之间的数据传输。这是一个巨大的数据库(具有近4000万次传输)。属性之一是传输的字节数(nbytes),范围从0字节到2 TB。我想对nbytes进行聚类,以便在给定k个聚类的情况下,某些x1传输属于k1聚类,而x2转移器则属于k2等。 从我使用的术语来看,您可能已经猜到了我要做什么:K-均值。这是一维数据,因为nbytes是我唯一关心的功能。当我寻找与此不同的方法时,我看到EM连同非集群方法一起被提及了两次。我想了解您对如何解决此问题的看法(特别是是否要群集)。 谢谢!

3
可视化降维是否应该视为由t-SNE解决的“封闭”问题?
我已经阅读了很多有关 -sne算法以进行降维。我对“经典”数据集(例如MNIST)的性能印象深刻,在该数据集上,数字清晰地分开了(请参阅原始文章):ŤŤt 我还使用它来可视化我正在训练的神经网络学到的功能,并对结果感到非常满意。 因此,据我了解: ŤŤtØ (ñ 日志n )Ø(ñ日志⁡ñ)O(n \log n) 我知道这是一个非常大胆的声明。我有兴趣了解这种方法的潜在“陷阱”。也就是说,在任何情况下我们都知道它没有用吗?此外,该领域存在哪些“开放”问题?

2
根据变量之间的相关性对变量进行聚类
问题: 我有一个很大的相关矩阵。除了将各个相关性聚类之外,我还想根据变量之间的相关性对变量进行聚类,即,如果变量A和变量B与变量C到Z具有相似的相关性,则A和B应该属于同一聚类。一个很好的现实例子是不同的资产类别-资产类别内的关联高于资产间类别的关联。 我也在考虑变量之间的跨度关系聚类,例如,当变量A和B之间的相关性接近于0时,它们或多或少地独立发挥作用。如果突然一些基本条件发生变化,并且出现了很强的相关性(正或负),我们可以认为这两个变量属于同一集群。因此,与其寻找正相关,不如寻找关系而不是关系。我猜比喻可能是带正电和带负电的粒子簇。如果电荷降为0,则粒子将从簇中漂移。但是,正电荷和负电荷都将粒子吸引到相关的簇中。 如果其中一些内容不太清楚,我深表歉意。请让我知道,我将澄清具体细节。

1
使用相关性作为距离度量(用于层次聚类)
我想对数据进行分层聚类,但我不想使用欧几里得距离,而是想使用相关性。此外,由于相关系数的范围从-1到1,用在我的研究都在-1和1表示“共同调控”,我治疗既-1和1为d = 0。因此,我的计算ð = 1 - | r | d=1−|r| d=1−|r|\ d = 1-|r| 我读了一个单独的问题(关于k均值聚类),您应该使用余弦定理将r转换为真正的欧几里得d:d=2(1−r)−−−−−−−√d=2(1−r)d = \sqrt{2(1-r)} 将相关性转换为距离以进行层次聚类的最准确方法是什么?

3
有监督的聚类或分类?
第二个问题是,据我所知,我在网络上某处的讨论中发现“有监督的聚类”,而聚类是无监督的,那么“有监督的聚类”的确切含义是什么?关于“分类”有什么区别? 有很多链接在谈论这一点: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf 等...

2
聚类二进制矩阵
我有一个尺寸为250k x 100 的二进制特征的半小矩阵。每行是一个用户,列是某些用户行为的二进制“标签”,例如“ likes_cats”。 user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 我想让用户适合5-10个集群,并分析负载以查看是否可以解释用户行为组。似乎有很多方法可以在二元数据上拟合聚类-我们认为什么是此数据的最佳策略? PCA 制作Jaccard相似度矩阵,拟合层次集群,然后使用顶部的“节点”。 K中位数 K-类固醇 前肢? 艾格尼丝 到目前为止,我在使用分层群集方面取得了一些成功,但是我真的不确定这是最好的方法。 tags = read.csv("~/tags.csv") d = dist(tags, method = "binary") hc = …

8
仅使用距离矩阵而不是按特征点数据执行K均值(或其近亲)聚类
我想对我拥有的对象执行K-均值聚类,但是这些对象并未描述为空间中的点,即按objects x features数据集。但是,我能够计算任何两个对象之间的距离(它基于相似度函数)。因此,我处理了距离矩阵objects x objects。 我之前已经实现了K-means,但这是通过点数据集输入实现的。而且在没有输入距离矩阵的情况下,我不清楚如何将群集更新为没有点表示的群集“中心”。通常如何做?为此,是否存在K均值或方法的版本?

2
如何对时间序列进行聚类?
我有关于聚类分析的问题。有3000家公司,必须根据5年内的用电量进行分组。每个公司在5年中每小时都有价值。我想找出在一段时间内某些公司的使用功率模式是否相同。结果应用于每日用电量预测。如果您对如何在SPSS中对时间序列进行聚类有什么想法,请与我分享。

2
比较聚类:兰德指数与信息变化
我想知道是否有人在信息变异和兰德指数之间的差异背后有任何见识或直觉可用于比较聚类。 我已经阅读了Marina Melia撰写的论文“ Comparing Clusterings-A InformationBased Distance ”(多变量分析杂志,2007年),但是除了注意到定义的差异之外,我不了解信息的变化是什么。捕获rand索引不捕获的值。

4
为什么混合数据是基于欧几里得的聚类算法的问题?
大多数经典的聚类和降维算法(分层聚类,主成分分析,k均值,自组织映射...)都是专门为数字数据设计的,其输入数据被视为欧氏空间中的点。 当然,这是一个问题,因为许多现实世界中的问题都涉及到混杂的数据:例如,如果我们研究公交车,则高度,长度和电机尺寸将是数字,但我们可能也会对颜色感兴趣(分类变量:蓝色/红色/绿色...)和容量类别(顺序变量:小/中/大容量)。具体来说,我们可能想同时研究这些不同类型的变量。 有很多方法可以将经典聚类算法扩展到混合数据,例如使用Gower不相似性插入层次聚类或多维缩放,或者采用其他以距离矩阵为输入的方法。或例如此方法,是将SOM扩展为混合数据。 我的问题是:为什么我们不能仅对混合变量使用欧几里德距离?还是为什么这样做不好?为什么我们不能仅对分类变量进行虚拟编码,对所有变量进行归一化,以使它们在观察之间的距离上具有相似的权重,并在这些矩阵上运行常规算法? 这真的很容易,而且从未做过,所以我想这是非常错误的,但是有人可以告诉我为什么吗?和/或给我一些参考?谢谢

2
如果k均值聚类是高斯混合建模的一种形式,那么当数据不正常时可以使用它吗?
我正在阅读Bishop有关GMM的EM算法以及GMM和k均值之间的关系。 在这本书中,它说k均值是GMM的硬分配版本。我想知道这是否意味着如果我要聚类的数据不是高斯,我就不能使用k-means(或者至少不适合使用)?例如,如果数据是手写数字的图像,该图像由8 * 8像素组成,每个像素的值为0或1(并假设它们是独立的,因此应该是伯努利的混合物)? 我对此有些困惑,将不胜感激。

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

4
是否有类似决策树的无监督聚类算法?
我有一个由5个要素组成的数据集:A,B,C,D,E。它们都是数字值。我要做的不是以密度为基础的聚类,而是以类似决策树的方式对数据进行聚类。 我的意思是这样的: 该算法可以基于特征C将数据划分为X个初始簇,即,X个簇可以具有小C,中等C,大C和非常大的C值等。接下来,在X个簇节点的每个下,算法进一步划分根据特征A将数据分为Y个簇。算法将继续进行,直到使用了所有特征。 我上面描述的算法就像决策树算法。但是我需要它用于无监督的聚类,而不是有监督的分类。 我的问题如下: 这样的算法已经存在吗?这种算法的正确名称是什么 是否有一个R / python包/库实现了这种算法?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.