Answers:
这可能会被淘汰,但我很高兴使用Matlab克隆Octave多年。八度伪造中有相当不错的库,可以根据不同的分布,统计检验等生成随机变量,尽管显然它与R相形见.。相对于R而言,一个可能的优势是Matlab / octave是数值分析人员,优化研究人员中的通用语言。 ,以及一些应用数学家的子集(至少在我上学的时候),而据我所知,我系中没有人使用R.我的损失。尽可能学习两者!
Weka用于数据挖掘-包含许多Java分类和聚类算法。
还有一些由FSF发起或根据GNU通用公共许可证重新分发的项目,例如:
甚至有一些应用程序作为教科书的配套软件发布,例如JMulTi,但仍很少有人使用。
我仍然打xlispstat,不时,虽然Lisp有由R(见简·德·莱乌对概述在很大程度上取代了Lisp的对比[R在杂志统计软件)。有趣的是,R语言的创始人之一Ross Ihaka相反地认为统计软件的未来是... Lisp:回到未来:Lisp作为统计计算系统的基础。@Alex已经指出了基于Clojure的统计环境Incanter,所以也许我们会在不久的将来看到基于Lisp的软件的复兴?:-)
RapidMiner用于数据和文本挖掘
首先,让我告诉您,我认为到目前为止,最好的工具是R,它具有大量的库和实用程序,在此不做列举。
让我扩大关于weka的讨论
有一个用于R的库,称为RWeka,您可以轻松地将其安装在R中,并使用此出色程序中的许多功能以及R中的功能,让我为您提供一个执行简单决策树的代码示例从此软件包随附的标准数据库中读取(绘制结果树也很容易,但是我将让您对如何执行此操作进行研究,这在RWeka文档中:
library(RWeka)
iris <- read.arff(system.file("arff", "iris.arff", package = "RWeka"))
classifier <- IBk(class ~., data = iris)
summary(classifier)
还有几个用于执行此操作的python库(python非常易于学习)
首先,让我列举一下您可以使用的软件包,在此不再赘述。Weka(是的,您有一个用于python的库),NLKT(除数据挖掘之外,最著名的用于文本挖掘的开源程序包),statPy,sickits和scipy。
还有一个很好的橙色(稍后我会再讨论),这是一个代码示例,该示例使用表cmpart1中的数据来制作一棵树,它还执行10折验证,您还可以绘制树图
import orange, orngMySQL, orngTree
data = orange.ExampleTable("c:\\python26\\orange\\cmpart1.tab")
domain=data.domain
n=10
buck=len(data)/n
l2=[]
for i in range(n):
tmp=[]
if i==n-1:
tmp=data[n*buck:]
else:
tmp=data[buck*i:buck*(i+1)]
l2.append(tmp)
train=[]
test=[]
di={'yy':0,'yn':0,'ny':0,'nn':0}
for i in range(n):
train=[]
test=[]
for j in range(n):
if j==i:
test=l2[i]
else:
train.extend(l2[j])
print "-----"
trai=orange.Example(domain, train)
tree = orngTree.TreeLearner(train)
for ins in test:
d1= ins.getclass()
d2=tree(ins)
print d1
print d2
ind=str(d1)+str(d2)
di[ind]=di[ind]+1
print di
最后,我使用了一些其他有趣的软件包
Orange:面向新手和专家的数据可视化和分析。通过可视化编程或Python脚本进行数据挖掘。机器学习的组件。生物信息学和文本挖掘的扩展。(我个人建议这样做,我在将它集成到python中时使用了很多,这非常好)如果您希望我可以给您发送一些python代码。
ROSETTA:用于在粗糙集理论框架内分析表格数据的工具包。ROSETTA旨在支持整个数据挖掘和知识发现过程:从数据的初始浏览和预处理到最小属性集的计算和if-then规则或描述性模式的生成,再到对诱导规则或模式的验证和分析(我也很喜欢使用)
KEEL:针对数据挖掘问题(包括回归,分类,聚类,模式挖掘等)评估进化算法。与现有的学习模型相比,它使我们能够对任何学习模型进行完整的分析,包括用于比较的统计测试模块。
DataPlot:用于科学可视化,统计分析和非线性建模。Dataplot的目标用户是从事科学和工程过程的表征,建模,可视化,分析,监视和优化的研究人员和分析人员。
Openstats:包括统计和测量入门,描述性统计,简单比较,方差分析,相关性,多元回归,中断时间序列,多元统计,非参数统计,测量,统计过程控制,财务程序,神经网络,模拟
Colin Gillespie提到了BUGS,但对于Gibbs Sampling等来说,更好的选择是JAGS。
如果您要做的只是ARIMA,那么您将无法击败X12-ARIMA,它是现场和开源的黄金标准。它不做实图(我使用R来做),但是诊断本身就是一个教训。
在更远的地方探索我最近发现并刚刚开始学习的东西...
ADMB(AD模型构建器),它基于AUTODIF库进行非线性建模,并具有MCMC和其他一些功能。它对模型进行预处理和编译为C ++可执行文件,并将其作为独立应用程序进行编译,应该比在R,MATLAB等中实现的等效模型要快得多。ADMB项目
它开始了,在渔业界仍然是最流行的,但是在其他目的上看起来却很有趣。它没有R的图形或其他特征,很可能与R结合使用。
如果要在GUI中使用贝叶斯网络:SamIam是一个很好的工具。R有几个也可以做到这一点的软件包,但是SamIam非常好。
对于希望使用C / C ++进行编程的人来说,GSL是宝贵的资源,因为它为随机生成器,线性代数等提供了一些例程。尽管GSL主要用于Linux,但也有Windows的端口。(请参阅:http : //gladman.plushost.co.uk/oldsite/computing/gnu_scientific_library.php和http://david.geldreich.free.fr/dev.html)
Meta.Numerics是一个.NET库,对统计分析提供了良好的支持。
与R(一个S克隆)和Octave(一个Matlab克隆)不同,它没有“前端”。它更像GSL,因为它是您在编写自己的需要进行统计分析的应用程序时链接到的库。对于业务线应用程序,C#和Visual Basic是比C / C ++更通用的编程语言,而Meta.Numerics比GSL更广泛地支持统计结构和测试。