数据科学 clusters

聚类之前是否有必要对数据进行标准化？

在集群之前是否有必要对数据进行标准化？在从例如scikit learn约DBSCAN，在这里他们这样做的线： X = StandardScaler().fit_transform(X) 但我不明白为什么有必要。归根结底，聚类不假定任何特定的数据分布-它是一种无监督的学习方法，因此其目的是探索数据。为什么需要转换数据？

23 python clustering clusters anomaly-detection

使用EC2时的实例与核心

在通常被称为“中等数据”项目的工作中，我已经能够在4到32个内核之间的任何一个系统上并行化我的代码（主要用于Python中的建模和预测）。现在，我正在考虑扩展到EC2上的群集（可能使用StarCluster / IPython，但也可以接受其他建议），并且对如何协调实例与群集上实例之间的内核之间的分配工作感到困惑。跨实例以及跨每个实例的内核并行化甚至可行吗？如果是这样，那么谁能快速总结一下运行许多每个核心很少的实例与少数几个核心很多的实例的优缺点？是否有经验法则来选择每个实例的实例与核心的正确比例？带宽和RAM在我的项目中不是无关紧要的问题，但是很容易发现何时出现瓶颈和重新调整。我想，要在没有重复测试的情况下将正确的内核混合基准用于实例要困难得多，而且我的项目相差太大，以至于任何一次测试都无法应用于所有情况。在此先感谢您，如果我只是未能正确搜索到此内容，请随时为我指出其他地方的正确答案！

12 parallel clusters aws

Questions tagged «clusters»