统计和大数据 k-means

1

我想使用pandas和scikit learning在python中编码kmeans集群。为了选择好的k，我想对Tibshirani和al 2001（pdf）中的Gap Statistic进行编码。我想知道是否可以使用scikit的惯性_结果并调整间隙统计公式，而不必重新编码所有距离计算。有谁知道scikit中使用的惯性公式/是否知道使用高级距离函数重新编码间隙统计信息的简便方法？

9 clustering python k-means scikit-learn metric

1

从基于GPS的报告中确定未知数量的现实世界位置

我正在开发一些软件，该软件应从多个基于GPS的报告中确定现实世界的位置（高速摄像头）。当报告位置时，用户将在驾驶，因此报告非常不准确。为了解决该问题，我必须对同一位置的报告进行聚类并计算平均值。我的问题是关于如何将这些报告归类。我阅读了有关期望最大化算法和k均值聚类的信息，但据我了解，我需要提前确定实际位置的数量。是否有其他算法不需要真正位置的确切数目，而是使用一些边缘条件（最小距离）？报告包含经度，纬度和精度（以米为单位）。没有名称或其他可用于识别重复项的名称。另一个障碍可能是这很常见，一个真实位置的报告只有一个。这使得很难将异常数据与正常数据区分开。

9 k-means expectation-maximization point-estimation

3

为k均值选择聚类：1个聚类情况

有谁知道一种确定使用kmeans进行聚类是否合适的好方法？也就是说，如果您的样品实际上是同质的，该怎么办？我知道类似混合模型（通过R中的mclust）可以为1：k群集情况提供适合的统计信息，但是似乎所有评估kmeans的技术都至少需要2个群集。有谁知道一种比较kmeans的1和2集群案例的技术？

9 r clustering k-means

1

如何比较观察到的事件与预期的事件？

假设我有一个频率为4个可能的事件的样本： Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和（18），我可以计算事件的预期频率，对吗？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

3

k-均值算法中的循环

根据Wiki，最广泛使用的收敛标准是“辅助功能没有改变”。我想知道如果使用这样的收敛准则是否会发生循环？如果有人指出了一篇提供自行车运动示例或证明这是不可能的文章，我将感到高兴。

9 clustering algorithms k-means

Questions tagged «k-means»