我没有数据挖掘或大数据方面的行业经验,所以很高兴听到您分享一些经验。
人们实际上在一个非常大的数据集上运行k-means,PAM,CLARA等吗?还是他们只是从中随机抽取一个样本?如果他们只是对数据集进行抽样,如果数据集不是正态分布的,结果是否可靠?
在实际情况下,运行这些算法时,我们能否说出收敛之前通常需要进行多少次迭代?还是迭代次数总是随数据大小而增长?
我之所以这样问,是因为我正在考虑开发一种在收敛之前终止迭代算法的方法,但是结果仍然可以接受。我认为值得尝试的是,如果迭代次数大于1,000,则可以节省一些计算成本和时间。你怎么看?
存在各种准则来停止K均值中的迭代。有趣的是,将迭代次数设置为固定值(例如10或20)只是一种合理的方法。K-means专用于快速方法,因此,如果您希望在每次迭代后检查收敛准则,则该准则必须易于计算。
—
ttnphns
有没有“科学”的方法来确定要执行的最大迭代次数?
—
foo
您的最后评论是一个很好的问题。老实说,我不知道。也许其他人会回答。
—
ttnphns
number of iterations always grow with the data size
不必要。