Questions tagged «k-means»

k均值是通过将指定数量的均值k,st分配给具有最接近均值的聚类时,将w / i聚类平方和最小化的方法,通过找到指定数量的均值k,st将数据划分为聚类

1
scikit学习中的聚类惯性公式
我想使用pandas和scikit learning在python中编码kmeans集群。为了选择好的k,我想对Tibshirani和al 2001(pdf)中的Gap Statistic进行编码。 我想知道是否可以使用scikit的惯性_结果并调整间隙统计公式,而不必重新编码所有距离计算。 有谁知道scikit中使用的惯性公式/是否知道使用高级距离函数重新编码间隙统计信息的简便方法?

1
从基于GPS的报告中确定未知数量的现实世界位置
我正在开发一些软件,该软件应从多个基于GPS的报告中确定现实世界的位置(高速摄像头)。当报告位置时,用户将在驾驶,因此报告非常不准确。为了解决该问题,我必须对同一位置的报告进行聚类并计算平均值。 我的问题是关于如何将这些报告归类。我阅读了有关期望最大化算法和k均值聚类的信息,但据我了解,我需要提前确定实际位置的数量。 是否有其他算法不需要真正位置的确切数目,而是使用一些边缘条件(最小距离)? 报告包含经度,纬度和精度(以米为单位)。没有名称或其他可用于识别重复项的名称。 另一个障碍可能是这很常见,一个真实位置的报告只有一个。这使得很难将异常数据与正常数据区分开。

3
为k均值选择聚类:1个聚类情况
有谁知道一种确定使用kmeans进行聚类是否合适的好方法?也就是说,如果您的样品实际上是同质的,该怎么办?我知道类似混合模型(通过R中的mclust)可以为1:k群集情况提供适合的统计信息,但是似乎所有评估kmeans的技术都至少需要2个群集。 有谁知道一种比较kmeans的1和2集群案例的技术?
9 r  clustering  k-means 

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

3
k-均值算法中的循环
根据Wiki,最广泛使用的收敛标准是“辅助功能没有改变”。我想知道如果使用这样的收敛准则是否会发生循环?如果有人指出了一篇提供自行车运动示例或证明这是不可能的文章,我将感到高兴。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.