统计和大数据 clustering

1

根据一些文献，DBSCAN是最常被引用的聚类算法，它可以基于密度找到任意形状的聚类。它有两个参数eps（作为邻域半径）和minPts（作为将一个点视为核心点的最小邻居），我认为这很大程度上取决于它们。是否有任何常规或常用方法来选择这些参数？

14 clustering dbscan

2

R中是否有一个函数可以获取找到的簇的中心并将簇分配给新数据集

我有一个多维数据集的两个部分，我们称它们为train和test。我想基于火车数据集构建一个模型，然后在测试数据集上对其进行验证。簇数是已知的。我试图在R中应用k-means聚类，但得到了一个包含聚类中心的对象： kClust <- kmeans(train, centers=N, nstart=M) R中是否有一个功能可以获取找到的簇的中心并将簇分配给我的测试数据集？我可以尝试其他哪些方法/算法？

14 r clustering k-means

4

输入中具有自定义距离矩阵的k-means实现

谁能指出我可以在输入中采用距离矩阵的k均值实现（如果在matlab中会更好）？标准的MATLAB实施需要输入中的观察矩阵，并且无法自定义更改相似性度量。

14 clustering matlab k-means

3

运行kmeans之前是否需要删除相关/共线性的变量？

我正在运行kmeans以识别客户群。我大约有100个变量来识别集群。这些变量中的每一个都代表客户在类别上花费的百分比。因此，如果我有100个类别，则我拥有这100个变量，这样每个客户的这些变量之和为100％。现在，这些变量彼此之间具有很强的相关性。在运行kmeans之前，是否需要删除其中一些以消除共线性？这是示例数据。实际上，我有100个变量和1000万个客户。 Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%

14 clustering data-mining k-means multicollinearity compositional-data

5

具有最小群集大小约束的群集（k均值或其他方式）

我需要将单位聚类为聚类，以最小化组内平方和（WSS），但我需要确保每个聚类至少包含单位。是否知道R的任何聚类功能是否允许在最小聚类大小约束下聚集成聚类？kmeans（）似乎没有提供大小限制选项。米ķkkkmmmkkk

14 r clustering

5

如何将距离（欧几里得）转换为相似度分数

我正在使用表示聚类以聚类说话者的声音。当我将话语与聚集的扬声器数据进行比较时，我得到（基于欧几里得距离）平均失真。该距离可以在范围内。我想将此距离转换为相似度得分。请指导我如何实现这一目标。ķkk[ 0 ，1 ][ 0 ，∞ ][0,∞][0,\infty][ 0 ，1 ][0,1][0,1]

13 clustering k-means distance euclidean

1

重复数据删除的最新技术

记录重复数据删除中最先进的方法是什么？重复数据删除有时也称为：记录链接，实体解析，身份解析，合并/清除。我知道例如CBLOCK [1]。如果答案中还包含对实现该方法的现有软件的引用，我将不胜感激。例如，我知道Mahout实现了树冠群集。还有使用Lucene 的Duke。有许多用于重复数据删除的商业系统。了解它们的工作方式和效率将非常有价值。我对单个数据集中的重复数据删除以及来自不同来源的多个数据集之间的链接都感兴趣。效率和处理大量数据的能力也很重要。 [1] CBLOCK：用于大规模重复数据删除任务的自动阻止机制

13 clustering data-cleaning record-linkage

3

在R中对大数据进行聚类并且与采样相关吗？

我是数据科学的新手，在查找R中具有200,000行和50列的数据集中的聚类时遇到问题。由于数据同时具有数字变量和名义变量，因此使用Euclidean距离度量的K-means之类的方法似乎不是合适的选择。因此，我转向接受距离矩阵作为输入的PAM，agnes和hclust。菊花方法可以处理混合类型的数据，但距离矩阵太大：200,000乘以200,000，比2 ^ 31-1（R 3.0.0之前的向量长度限制）大得多。昨天发布的新R 3.0.0支持长度大于2 ^ 31-1的长向量。但是200,000 x 200,000的双矩阵需要大于16Gb的连续RAM，这在我的机器上是不可能的。我读过有关并行计算和bigmemory包的信息，但不确定它们是否对您有帮助：如果我使用的是雏菊，它将生成一个大矩阵，该矩阵无论如何都无法容纳在内存中。我还阅读了有关采样的文章：采样与“大数据”时代相关吗？因此，就我而言，对数据集使用抽样，对样本进行聚类然后推断整个数据集的结构是否相关？你能给我一些建议吗？谢谢！关于我的机器： R版本3.0.0（2013-04-03）平台：x86_64-w64-mingw32 / x64（64位）操作系统：Windows 7 64bit 内存：16.0GB

13 r clustering sampling large-data

5

适当的时间数据聚类技术？

我有活动频率的时间数据。我想识别数据中的群集，这些群集指示具有相似活动级别的不同时间段。理想情况下，我想在不先验指定集群数量的情况下识别集群。什么是合适的聚类技术？如果我的问题没有足够的信息来回答，那么确定适当的聚类技术需要提供哪些信息？以下是我正在想象的数据/集群类型的说明：

13 machine-learning clustering

4

通过数据集的随机子样本初始化K均值中心吗？

如果我有某个数据集，那么使用该数据集的随机样本来初始化聚类中心有多么聪明？例如，假设我要5 clusters。我可以5 random samples说size=20%是原始数据集。然后，我可以对这5个随机样本中的每个样本取平均值，然后将这些均值用作我的5个初始聚类中心吗？我不知道我在哪里读这本书，但我想知道你们对这个想法的看法。更新：请参阅此线程初始化K-means聚类：现有的方法有哪些？有关各种初始化方法的一般讨论。

13 clustering k-means unsupervised-learning

2

使用统计显着性检验验证聚类分析结果

我正在调查使用统计显着性检验（SST）来验证聚类分析的结果。我发现了有关该主题的几篇论文，例如 “ 对于高维，低样本量数据聚类的统计显着性科幻通过” 刘，玉峰等人。（2008年） Bock（1985）的 “ 关于聚类分析中的一些显着性检验 ” 但是我有兴趣找到一些争论说SST 不适合验证聚类分析结果的文献。我发现声称它的唯一来源是软件供应商的网页澄清：我对测试是否因聚类分析而发现了重要的聚类结构感兴趣，因此，我想了解支持或驳斥“关于事后测试探索性数据结果的可能性”的论文。用来寻找聚类的分析”。我刚刚发现了Milligan和Hirtle于2003年发表的一篇论文《聚类和分类方法》，该论文说，例如，使用ANOVA将是无效的分析，因为数据没有对组进行随机分配。

13 hypothesis-testing clustering statistical-significance

2

了解聚类结果的比较

我正在尝试将数据分类。我对这个主题还很陌生，并试图了解一些分析的结果。使用Quick-R中的示例，R建议使用几个软件包。我尝试使用其中两个包（fpc使用kmeans函数和mclust）。我不了解这种分析的一个方面是结果的比较。 # comparing 2 cluster solutions library(fpc) cluster.stats(d, fit1$cluster, fit2$cluster) 我已经通读了fpc 手册的相关部分，但仍不清楚我的目标是什么。例如，这是比较两种不同聚类方法的输出： $n [1] 521 $cluster.number [1] 4 $cluster.size [1] 250 119 78 74 $diameter [1] 5.278162 9.773658 16.460074 7.328020 $average.distance [1] 1.632656 2.106422 3.461598 2.622574 $median.distance [1] 1.562625 1.788113 2.763217 2.463826 $separation [1] 0.2797048 0.3754188 0.2797048 0.3557264 $average.toother …

13 r clustering

1

套索的LARS与坐标下降

使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点？我主要对性能方面感兴趣（我的问题往往有N成千上万且p小于20。）但是，任何其他见解也将受到赞赏。编辑：自从我发布问题以来，chl亲切地指出了Friedman等人的论文[2]，其中坐标下降比其他方法快得多。如果是这样，作为执业医生，我是否应该忘掉LARS来支持协调下降？ [1]埃弗隆·布拉德利；海蒂·特雷弗；约翰·斯通，伊恩和蒂布希拉尼·罗伯特（2004）。“最小角度回归”。统计年鉴32（2）：第407-499页。 [2] Jerome H. Friedman，Trevor Hastie，Rob Tibshirani，“通过坐标下降的广义线性模型的正则化路径”，《统计软件》，第1卷。33，第1期，2010年2月。

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

4

这些基于相关性的距离是否满足三角不等式？

对于分层聚类，我经常看到以下两个“量度”（它们并不是完全正确），用于测量两个随机变量和之间的距离： \ newcommand {\ Cor} {\ mathrm {Cor}} \ begin {align} d_1（X，Y）＆= 1- | \ Cor（X，Y）|，\\ d_2（X，Y）＆= 1-（\ Cor（X，Y））^ 2 \ end {align} 中的一个一个满足三角不等式？如果是这样，除了进行暴力计算之外，我还应该证明它吗？如果它们不是指标，那么简单的反例是什么？XXXYYY\newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align}

13 correlation clustering distance metric

4

在没有弯角聚类的情况下该怎么办

我了解到，当选择多个聚类时，应该为K的不同值寻找一个弯头。我已经绘制了k的值（从1到10）的insss值，但是我看不到弯头。在这种情况下您会怎么做？

13 clustering k-means

Questions tagged «clustering»