尽管我曾经接受过工程师培训,但是发现我对数据挖掘越来越感兴趣。现在,我正在尝试进一步调查该领域。特别是,我想了解现有的软件工具的不同类别,以及每个类别中值得注意的工具以及原因。(请注意,我并不是说“最佳”工具,只是那些著名的工具,以免我们发动火焰大战。)尤其要注意开放源代码和免费提供的工具,尽管这并不意味着我只对开源和免费感兴趣。
尽管我曾经接受过工程师培训,但是发现我对数据挖掘越来越感兴趣。现在,我正在尝试进一步调查该领域。特别是,我想了解现有的软件工具的不同类别,以及每个类别中值得注意的工具以及原因。(请注意,我并不是说“最佳”工具,只是那些著名的工具,以免我们发动火焰大战。)尤其要注意开放源代码和免费提供的工具,尽管这并不意味着我只对开源和免费感兴趣。
Answers:
这可能是您会找到的最全面的列表:mloss.org
看一下
以及用于数据集的UCI机器学习存储库。
RapidMiner(Java)[开源]
ELKI是一个开放源代码的大学项目,在某种程度上可以与WEKA媲美,但是在聚类和离群值检测方面要强大得多。WEKA实际上并不是真正的数据挖掘,而是机器学习软件。
Rexer Anlaytics每年都会进行一次工具箱调查。KDnuggets具有行业和意图的软件描述。
SQL Server数据挖掘(SSDM)已有很长时间没有更新,但是如果要挖掘大型关系数据库和多维数据集,它仍然具有相当的竞争力。我正在缓慢但系统地尝试通过尽可能多的挖掘工具进行测试,而SQL Server的Windows界面是迄今为止我发现的最高效,最稳定的方法(尤其是在企业数据库方面,其中有些令人惊讶地马虎的接口),尽管它的年龄。我希望使用现代的Windows Presentation Foundation(WPF)界面,但这是第二好的选择。
当我试图获得一些基本的挖掘技能时,我在上面写了一系列详细的业余教程,标题为“ SQL Server数据挖掘的Ri径阶梯”。尽管我没有经验,但它们仍然有助于提前识别一些“陷阱”。