我正在考虑使用Python库进行机器学习实验。到目前为止,我一直依靠WEKA,但总体上还是很不满意。这主要是因为我发现对WEKA的支持不太好(很少有例子,文档稀疏,而社区支持在我的经验中不够理想),并且发现自己处在棘手的情况下没有任何帮助。我考虑此举的另一个原因是因为我真的很喜欢Python(我是Python的新手),并且不想回到Java编码中。
所以我的问题是,还有什么
- 全面
- 可扩展性(10万个功能,1万个示例)和
- 很好的受支持的库,可以在那里用Python进行ML?
我对进行文本分类特别感兴趣,因此想使用一个库,该库具有良好的分类器集合,功能选择方法(信息增益,Chi-Sqaured等)以及文本预处理功能(词干,停用词删除) ,tf-idf等)。
到目前为止,根据过去和其他地方的电子邮件线索,我一直在研究PyML,scikits-learn和Orange。关于我提到的上述三个指标,人们的感受如何?
还有其他建议吗?