Questions tagged «clustering»

聚类分析是根据数据的相互“相似性”将数据划分为对象子集的任务,而无需使用诸如类标签之类的现有知识。[群集标准错误和/或群集样本应被标记为此类;不要为它们使用“集群”标签。]

3
聚类概率分布-方法和指标?
我有一些数据点,每个数据点包含5个聚集的离散结果向量,每个向量的结果都是通过不同的分布生成的(具体类型我不确定,我最好的猜测是Weibull,其形状参数在幂次幂附近变化定律(大致为1到0)。) 我正在寻找使用像K-Means这样的聚类算法,根据其5个分量分布的属性将每个数据点分组。我想知道是否有确定的距离度量标准可以很好地满足这些目的。到目前为止,我已经有了三个想法,但是我不是一个经验丰富的统计学家(更多的是一位数据挖掘计算机初学者),所以我几乎不知道自己有多远。 由于我不知道我要处理的是哪种分布,因此我的蛮力解决方法是将每个分布(每个点有5个)切成其各自的离散数据值(I pad)每个值都对应一个相同的长度,并在末尾用零表示),并将这些值中的每个用作数据点本身的单独属性。我尝试基于PDF和CDF的这些属性使用曼哈顿距离和欧几里得距离作为度量。 再一次,由于我不知道我拥有哪种分布,所以我发现,如果要测量总体分布之间的距离,则可以在分布之间使用某种非参数测试对,例如KS检验,以查找给定分布是由不同PDF生成的可能性。我认为,使用曼哈顿距离的第一个选择(以上)将是使用该方法可能获得的一种上限(因为KS统计量是CDF差的最大绝对值,其中曼哈顿距离是PDF差异的绝对值之和)。然后,我考虑了可能使用欧几里得距离,但可能仅取所有这些值中的最大值来组合每个数据点内不同的KS统计量或P值。 最后,为了尽我所能解释的分布形状,我想我可能会尝试估计分布的参数以拟合Weibull曲线。然后,我可以基于Weibull分布的两个参数lambda和k(比例和形状)的差异对分布进行聚类,可能根据这些参数的差异或某种形式进行归一化。这是我认为可能对参数进行标准化的唯一情况。 所以我的问题是,对于集群分布,您会建议什么度量/方法?我甚至在这些方面都走对了吗?K-Means甚至是使用的好算法吗? 编辑:澄清数据。 每个数据点(Obj我要集群的每个对象)实际上都包含5 vectors数据。我知道这些对象可以进入5个阶段。(为简化起见)我们将说每个向量都属于length N。 这些载体(称之为中的每一个vector i)是一个概率分布与整数x-values至N,其中每个对应的y值表示测量的概率1 value x中phase i的对象Obj。那么N是我期望在对象的任何阶段测量的最大x值(在我的分析中,这实际上不是一个固定的数字)。 我通过以下方式确定这些概率: 我拿一个Obj,并把它phase i的k trials,进行测量,在每次试验。每个度量都是一个整数。我对单个对象的5个阶段中的每个阶段都执行此操作,然后依次对每个对象执行此操作。我对单个对象的原始测量数据可能类似于: 向量1。[90、42、30、9、3、4、0、1、0、0、1] 向量2。[150,16,5,0,1,0,0,0,0,0,0] ... 矢量5。[16,... ...,0] 然后,相对于该给定向量中的测量总数,我将每个向量单独归一化。这使我在该载体中,其中每一个对应的y值表示测量的概率的概率分布value x中phase i。


1
k均值|| 又名可扩展K均值++
Bahman Bahmani等。引入了k-means ||,这是k-means ++的更快版本。 此算法取自其论文的第4页,Bahmani,B.,Moseley,B.,Vattani,A.,Kumar,R.,&Vassilvitskii,S.(2012)。可扩展的k-均值++。VLDB基金会论文集,5(7),622-633。 不幸的是,我不理解那些花哨的希腊字母,因此我需要一些帮助以了解其工作原理。据我了解,该算法是k-means ++的改进版本,它使用过采样来减少迭代次数:k-means ++必须迭代次,其中k是所需簇的数量。ķkkķkk 通过一个有关k-means ++如何工作的具体示例,我得到了很好的解释,因此我将再次使用相同的示例。 例 我有以下数据集: (7,1),(3,4),(1,5),(5,8),(1,3),(7,8),(8,2),(5,9),(8 ,0) (所需簇数)k = 3k=3k = 3 (过采样因子)ℓ = 2ℓ=2\ell = 2 我开始进行计算,但是不确定是否正确,也不知道第2步,第4步或第5步。 步骤1:从X随机地均匀采样一个点C←C←\mathcal{C} \leftarrowXXX 比方说,所述第一质心是(同k均值++)(8,0)(8,0)(8,0) 步骤2:ψ←ϕX(C)ψ←ϕX(C)\psi \leftarrow \phi_X(\mathcal{C}) 不知道 第三步: d2(x,C)=[2,41,74,73,58,65,4,90]d2(x,C)=[2,41,74,73,58,65,4,90]d^2(x, \mathcal{C}) = [2, 41, 74, 73, 58, 65, 4, 90] 我们计算到每个点最近的中心的平方距离。在这种情况下,我们只有一个中心,到目前为止,。(8,0)(8,0)(8,0) ℓ⋅d2(x,C)=[4,81,148,146,116,130,8,180]ℓ⋅d2(x,C)=[4,81,148,146,116,130,8,180]\ell \cdot d^2(x, \mathcal{C}) = …

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


5
我可以使用PCA进行变量选择以进行聚类分析吗?
我必须减少变量数量以进行聚类分析。我的变量之间有很强的相关性,因此我考虑进行因素分析 PCA(主要成分分析)。但是,如果使用所得分数,则我的聚类不是很正确(与文献中以前的分类相比)。 题: 我可以使用旋转矩阵为每个组件/因子选择负荷最大的变量,而仅将这些变量用于聚类吗? 任何参考书目也将有所帮助。 更新: 一些澄清: 我的目标: 我必须通过SPSS使用两步算法进行聚类分析,但是我的变量不是独立变量,因此我考虑丢弃其中的一些变量。 我的数据集: 我正在研究100,000个案例的15个标量参数(我的变量)。一些变量具有高度相关性( Pearson)>0.9>0.9>0.9 我的疑问: 由于只需要独立变量,因此我想进行主成分分析(对不起:我在最初的问题中错误地谈到了因子分析,这是我的错误),并且只为每个组件选择负荷最大的变量。我知道PCA过程存在一些任意步骤,但是我发现此选择实际上类似于IT Jolliffe(1972&2002)提出的“ 方法B4 ”来选择变量,JR King和DA Jackson也在1999年提出了这种选择。 。 因此,我正在考虑以这种方式选择一些自变量子组。然后,我将使用这些组来运行不同的聚类分析,并将比较结果。

2
在R中聚类空间数据
我有一套每月的海面温度(SST)数据,我想应用一些聚类方法来检测具有相似SST模式的区域。我有一组从1985年到2009年运行的每月数据文件,并希望将聚类应用到每个月作为第一步。 每个文件包含358416点的网格数据,其中约50%是陆地,并用99.99值标记为NA。数据格式为: lon lat sst -10.042 44.979 12.38 -9.998 44.979 12.69 -9.954 44.979 12.90 -9.910 44.979 12.90 -9.866 44.979 12.54 -9.822 44.979 12.37 -9.778 44.979 12.37 -9.734 44.979 12.51 -9.690 44.979 12.39 -9.646 44.979 12.36 我尝试了CLARA聚类方法,并得到了一些明显不错的结果,但在我看来,这也只是平滑(分组)等值线。那么我不确定这是分析空间数据的最佳聚类方法。 是否有其他专门用于此类数据集的聚类方法?一些参考将是开始阅读的好方法。 提前致谢。
12 r  clustering  spatial 


1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

2
R中k均值聚类的解释结果
我正在使用kmeansR 的指令在Anderson的虹膜数据集上执行k-means算法。我对我得到的一些参数有疑问。结果是: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 在这种情况下,“集群意味着”代表什么?它是集群中所有对象的距离的平均值吗? 在最后一部分中,我还有: Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) 那个88.4%的值,可能是它的解释?

1
R中混合数据的鲁棒聚类方法
我正在寻找一个小的数据集(对4个区间变量和一个三因素分类变量的64个观察值)进行聚类。现在,我对聚类分析还很陌生,但是我知道自从层次聚类或k均值成为唯一可用选项以来,已有了相当大的进步。特别是,似乎有可用的基于模型的聚类的新方法,如chl所指出的那样,可以使用“拟合优度指数来确定聚类或类的数量”。 但是,用于基于模型的群集的标准R包mclust显然不适合具有混合数据类型的模型。fpc由于连续变量的非高斯性质,我怀疑该模型会但很难拟合模型。我应该继续使用基于模型的方法吗?如果可能的话,我想继续使用R。如我所见,我有几种选择: 将三级分类变量转换为两个虚拟变量,然后使用mclust。我不确定这是否会使结果产生偏差,但是如果不是这样,则是我的首选。 以某种方式转换连续变量并使用该fpc包。 使用一些我还没有遇到过的R包。 使用Gower的度量创建一个相异矩阵,并使用传统的分层或重定位群集技术。 stats.se hivemind在这里有什么建议吗?


1
在聚类分析中为变量分配权重
我想在聚类分析中为变量分配不同的权重,但是我的程序(Stata)似乎对此没有选择,所以我需要手动进行操作。 想象一下4个变量A,B,C,D。这些变量的权重应为 w(A)=50% w(B)=25% w(C)=10% w(D)=15% 我想知道以下两种方法之一是否真的可以解决问题: 首先,我将所有变量标准化(例如,按其范围)。然后,我将每个标准化变量与其权重相乘。然后进行聚类分析。 我将所有变量与其权重相乘,然后对其进行标准化。然后进行聚类分析。 还是两个想法都是完全废话? [编辑] 我希望使用的聚类算法(我尝试了3种不同的算法)是k均值,加权平均链接和平均链接。我计划使用加权平均链接来确定大量簇,然后将它们插入k均值。
12 clustering  stata 

1
样本协方差矩阵不可逆时该怎么办?
我正在研究一些聚类技术,其中对于给定的d维向量簇,我假设一个多元正态分布并计算样本d维平均向量和样本协方差矩阵。 然后,当尝试确定一个新的,看不见的d维向量是否属于该簇时,我正在通过以下度量来检查其距离: (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,−p2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) 这需要我计算协方差矩阵的逆。但是给定一些样本,我不能保证协方差矩阵是可逆的,如果不是,我该怎么办?σ^Xσ^X\hat{\sigma}_X 谢谢


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.