数据挖掘软件工具概述


15

尽管我曾经接受过工程师培训,但是发现我对数据挖掘越来越感兴趣。现在,我正在尝试进一步调查该领域。特别是,我想了解现有的软件工具的不同类别,以及每个类别中值得注意的工具以及原因。(请注意,我并不是说“最佳”工具,只是那些著名的工具,以免我们发动火焰大战。)尤其要注意开放源代码和免费提供的工具,尽管这并不意味着我只对开源和免费感兴趣。


1
我建议这是一个社区Wiki。
塔尔·加利利

听起来像是一个作业问题
Neil McGuigan 2010年

@Tal当然,现在已转换。

@el负责人-这是一个非常广泛而笼统的问题...但是我担心这不是一个家庭作业问题。
约翰·贝里曼

Answers:



7

看一下

  • Weka(Java,分类能力强)
  • 橙色(Python脚本,主要是分类)
  • GNU R(R语言,有些面向矢量表,请参阅机器学习任务视图和Rattle UI)
  • ELKI(Java,擅长聚类和离群值检测,对加速的索引结构支持,算法列表
  • Mahout(Java,属于Hadoop,如果您有集群和庞大的数据集)

以及用于数据集的UCI机器学习存储库


1
您可以将Red-R添加到列表中(R中为Orange的克隆):red-r.org
Amro,

我已经下载了R,现在正在玩它。
约翰·贝里曼

@Amro谢谢!但是,除非我误会,否则它在Mac平台上不可用。
chl 2010年

我不是Mac用户,但我认为Linux构建可以为您工作(您需要手动安装所有python依赖项):red-r.org/forum/topic.php?id=22#post
Amro

@Amro,我来试试看;过去,我一直在测试RAnalyticFlow(j.mp/bYF8xs),但并没有确信:我基本上是CLI用户:-)
chl 2010年





2

ELKI是一个开放源代码的大学项目,在某种程度上可以与WEKA媲美,但是在聚类和离群值检测方面要强大得多。WEKA实际上并不是真正的数据挖掘,而是机器学习软件。


1

有了这个红-R具有很好的图形界面和可视化编程接口。它利用R来处理各种数据分析。



0

SQL Server数据挖掘(SSDM)已有很长时间没有更新,但是如果要挖掘大型关系数据库和多维数据集,它仍然具有相当的竞争力。我正在缓慢但系统地尝试通过尽可能多的挖掘工具进行测试,而SQL Server的Windows界面是迄今为止我发现的最高效,最稳定的方法(尤其是在企业数据库方面,其中有些令人惊讶地马虎的接口),尽管它的年龄。我希望使用现代的Windows Presentation Foundation(WPF)界面,但这是第二好的选择。

当我试图获得一些基本的挖掘技能时,我在上面写了一系列详细的业余教程,标题为“ SQL Server数据挖掘的Ri径阶梯”。尽管我没有经验,但它们仍然有助于提前识别一些“陷阱”。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.