Questions tagged «clustering»

聚类分析是根据数据的相互“相似性”将数据划分为对象子集的任务,而无需使用诸如类标签之类的现有知识。[群集标准错误和/或群集样本应被标记为此类;不要为它们使用“集群”标签。]

2
聚类嘈杂的数据或与离群值
我有两个这样的变量的嘈杂数据。 x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, 0.5,0.9) y <- c(y1 + e1,yn) x <- …

1
scikit学习中的聚类惯性公式
我想使用pandas和scikit learning在python中编码kmeans集群。为了选择好的k,我想对Tibshirani和al 2001(pdf)中的Gap Statistic进行编码。 我想知道是否可以使用scikit的惯性_结果并调整间隙统计公式,而不必重新编码所有距离计算。 有谁知道scikit中使用的惯性公式/是否知道使用高级距离函数重新编码间隙统计信息的简便方法?

3
为k均值选择聚类:1个聚类情况
有谁知道一种确定使用kmeans进行聚类是否合适的好方法?也就是说,如果您的样品实际上是同质的,该怎么办?我知道类似混合模型(通过R中的mclust)可以为1:k群集情况提供适合的统计信息,但是似乎所有评估kmeans的技术都至少需要2个群集。 有谁知道一种比较kmeans的1和2集群案例的技术?
9 r  clustering  k-means 

5
预先聚类有助于建立更好的预测模型吗?
对于流失建模的任务,我正在考虑: 计算数据的k个聚类 分别为每个集群构建k个模型。 这样做的理由是,没有证据可以证明子代客群体是同质的,因此有理由假设数据生成过程可能因不同的“组”而异。 我的问题是,这是否合适?它违反任何东西,还是出于某种原因被认为是不好的?如果是这样,为什么? 如果不是,您是否会分享有关该问题的一些最佳实践?第二件事-做预聚类通常比模型树好还是坏(如Witten,Frank中定义的那样,分类/回归树在叶子上有模型。直觉上看来,决策树阶段只是聚类的另一种形式,但是如果它比“常规”群集有任何优势,请访问idk。)。

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

7
寻找2D人工数据以演示聚类算法的属性
我正在寻找遵循不同分布和形式的二维数据点(每个数据点是两个值(x,y)的向量)的数据集。生成此类数据的代码也将有所帮助。我想使用它们来绘制/可视化某些聚类算法的性能。这里有些例子: 星状云数据 四个集群,一个容易分离 螺旋形(无簇) 戒指 两片几乎分开的云 两个平行的簇形成螺旋 ...等等

4
如何定量判断一维数据是否聚集在1或3个值附近?
我有一些关于人的心跳之间的时间的数据。异位(额外)心跳的一种迹象是,这些间隔围绕三个值而不是一个值聚集。如何获得对此的定量度量? 我正在寻找比较多个数据集的方法,这两个100 bin直方图代表了所有这些数据集。 我可以比较方差,但是我希望我的算法能够检测每种情况下是否存在一个或三个聚类,而无需与其他情况进行比较。 这是用于脱机处理的,因此,如果需要的话,有很多计算能力。



4
非对称距离测度的聚类
如何将要素与非对称距离度量聚类? 例如,假设您要以星期几为特征对数据集进行聚类-从星期一到星期五的距离与从星期五到星期一的距离是不同的。 您如何将其纳入聚类算法的距离度量中?

2
R中基于噪声的应用程序基于密度的空间聚类(DBSCAN)聚类
这个问题开始于“ 在R中聚集空间数据 ”,现在移到了DBSCAN问题。 正如对第一个问题的回答所建议的那样,我搜索了有关DBSCAN的信息并阅读了一些有关的文档。出现了新的问题。 DBSCAN需要一些参数,其中之一是“距离”。由于我的数据是三维,经度,纬度和温度,我应该使用哪个“距离”?哪个尺寸与该距离有关?我想应该是温度。如何找到R的最小距离? 另一个参数是形成聚类的最小点数。有没有找到该号码的方法?不幸的是我没有找到。 我在类似我的数据集中找不到使用dbscan的R示例,您知道有这样的示例的网站吗?因此,我可以阅读并尝试适应我的情况。 最后一个问题是我对DBSCAN的第一次R尝试(没有对先前问题的正确回答)导致内存问题。R说它不能分配向量。我从一个4 km的网格开始,该网格具有779191个点,在删除无效的SST点时,该点以大约300000行x 3列(纬度,经度和温度)结束。解决此内存问题的任何提示。它取决于我的计算机还是DBSCAN本身? 感谢您耐心阅读冗长且可能很无聊的消息以及您的帮助。
9 r  clustering  spatial 

3
k-均值算法中的循环
根据Wiki,最广泛使用的收敛标准是“辅助功能没有改变”。我想知道如果使用这样的收敛准则是否会发生循环?如果有人指出了一篇提供自行车运动示例或证明这是不可能的文章,我将感到高兴。

3
节省空间的集群
我见过的大多数聚类算法都始于在所有点之间创建每个到每个的距离,这在更大的数据集上变得很成问题。有没有这样做的人吗?还是采用某种部分/近似/交错方式? 哪种聚类算法/实现占用的空间少于O(n ^ 2)? 是否在某处列出了算法及其对时间和空间的要求?

4
如何在2 X 3桌子上进行多个事后卡方检验?
我的数据集包括近海,中海道和近海三种地点类型的生物的总死亡率或生存率。下表中的数字表示站点数。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 我想知道根据地点​​类型,发生100%死亡率的地点数量是否显着。如果我运行2 x 3卡方,则会得到显着的结果。我是否可以进行事后成对比较,或者实际上应该使用对数方差分析或二项分布的回归?谢谢!

2
双层集群入门
我一直在做一些关于bicluster的互联网研究。(我已经阅读了Wiki文章多次。)到目前为止,似乎没有什么定义或标准术语。 我想知道是否有任何对寻找二聚体算法感兴趣的标准论文或书籍。 是否可以说该领域的最新技术水平?我对使用遗传算法找到双聚类的想法很感兴趣,因此,尤其是在其他方法的背景下,我将对该方法的评论表示赞赏。 通常在群集中,目标是将数据集划分为组,其中每个元素都位于某个组中。bicluster算法是否还试图将所有元素放在一个特定的组中?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.