我想使用pandas和scikit learning在python中编码kmeans集群。为了选择好的k,我想对Tibshirani和al 2001(pdf)中的Gap Statistic进行编码。
我想知道是否可以使用scikit的惯性_结果并调整间隙统计公式,而不必重新编码所有距离计算。
有谁知道scikit中使用的惯性公式/是否知道使用高级距离函数重新编码间隙统计信息的简便方法?
我认为这个问题具有足够的统计内容,足以应对CV的问题,但请注意,它也需要相当复杂的编程和Python知识。可能很难得到一个好的答案。您可能也想/愿意解决伪代码,和/或您可能需要将此问题分为2部分,其中1部分涉及统计方面,1部分涉及Stack Overflow中有关Python编程方面的问题。(或者也许不是,我不确定,但我只是想给您个警告;我们会看看情况如何。)
—
gung-恢复莫妮卡
这个问题需要定义术语“惯性”。它看起来像是在内部创造的
—
ttnphns
python
。