在抵制电子表格混乱的尝试中,我经常宣扬福音,寻求更强大的工具,例如真正的统计软件(R,Stata等)。最近,有人断然地说他们根本不会学习编程,这使我对这种观点提出了挑战。我想为他们提供不需要编程的数据分析工具(但理想情况下,如果他们决定以后将脚趾浸入水中,则可以扩展到编程)。我可以推荐什么样的数据探索软件包?
在抵制电子表格混乱的尝试中,我经常宣扬福音,寻求更强大的工具,例如真正的统计软件(R,Stata等)。最近,有人断然地说他们根本不会学习编程,这使我对这种观点提出了挑战。我想为他们提供不需要编程的数据分析工具(但理想情况下,如果他们决定以后将脚趾浸入水中,则可以扩展到编程)。我可以推荐什么样的数据探索软件包?
Answers:
我用Python编写了95%的工作,其余的则用R或MATLAB或IDL / PV-WAVE(以及不久的SAS)编写。但是,我所处的环境中,获得结果的时间通常是选择分析的巨大推动力,因此我也经常使用点击工具。以我的经验,没有单一,强大,灵活的GUI工具可以进行分析,就像没有一种语言一样。我通常将以下免费和商业软件的集合拼凑在一起
我没有使用过JMP,Stata,Statistica等,但是想使用。
使用这些工具涉及学习不同的GUI和建模的多种抽象,这在当时是很痛苦的,但是让我稍后获得更快的临时结果。我和OP在同一条船上,因为虽然与我一起工作的大多数人都很聪明,但他们并不关心学习一种语言,也不关心多个GUI和特定于应用程序的术语。因此,我已经辞职了,接受Excel在业务领域中驱动90%的分析。因此,我正在寻找使用pyinex之类的功能,以便为绝大多数同事期望的同一Excel表示层提供更好的分析。
更新:继续执行“编程编程但制作Excel演示层”主题,我刚遇到这个人的网站,提供Tufte样式的图形嵌入Excel单元格中。简直很棒而且免费!
有些人认为编程只是输入命令行语句。到那时,也许您在鼓励他们方面有点迷失了。但是,如果他们已经在使用电子表格,那么他们已经必须输入公式。这些类似于命令行语句。如果他们真的是说他们不想在逻辑和自动化分析的意义上进行任何编程,那么您可以告诉他们他们仍然可以在R或Stata中进行分析,而无需进行任何编程。
如果他们可以在电子表格中进行统计...他们想做的所有事情...,那么就可以完成他们希望完成的所有统计分析,而无需在R或Stata中进行“编程”。他们可以安排和整理电子表格中的数据,然后将其导出为文本。然后,无需进行任何编程即可进行分析。
有时这就是我向R介绍的方式。无需编程即可进行电子表格中可以进行的数据分析。
如果您以这种方式迷住了他们,那就慢慢来吧……:)几年来称赞他们成为了一个好的程序员。
您可能还希望向同事展示此文档,或者至少自己阅读以更好地表达自己的观点。
我将在这里介绍JMP。有两个原因使它成为我首选的非编程数据探索工具:
正如John所说,数据探索在R中不需要太多编程。这是您可以提供给人们的数据探索命令的列表。(我刚刚想到了这一点;您当然可以扩展它。)
从它所在的任何包中导出数据。(导出不带引号的数字数据很方便。)然后在R中读取数据。
ChickWeight=read.csv('chickweight.csv')
做一张桌子。
table(ChickWeight$Diet)
让R猜想给你什么样的图形。有时效果很好。
plot(ChickWeight)
plot(ChickWeight$weight)
plot(ChickWeight$weight~ChickWeight$Diet)
一堆特定的绘图功能非常简单地作用于单个变量。
hist(ChickWeight$weight)
取子集
plot(subset(ChickWeight,Diet=='2'))
如果人们习惯了类似SQL的语法(更多信息请参见)
library(sqldf)
plot(sqldf('select * from ChickWeight where Diet == "2"'))
PCA(您当然会有两个以上的变量。)
princomp(~ ChickWeight$weight + ChickWeight$Time)
这更多的是哀叹而不是答案。
我所见过的最好的软件是Arc,它是基于Xlisp-Stat构建的。这是一款出色的数据探索软件,具有许多内置的交互式图形以及许多统计推断功能。在我看来,没有什么比它易于进行数据探索和使用Lisp编程进一步扩展它的能力更强了。我认为,十年后,R中的交互性才开始以Arc之类的方式开始使用。据我所知,还没有人使用这些功能来构建一个交互式界面,该界面几乎与Arc一样有用。
不幸的是,它从来没有真正流行过,因此开发人员几乎全部都转而使用R。它的最新更新时间为2004年7月。PC和Linux / Unix版本仍然可以使用,根据您的需要,可能值得尝试。对于Mac而言,最好的选择是尝试在X11下使用Linux / Unix版本,我已经知道它可以在几种系统上运行。网站上提到的Mac版本仅适用于“经典” Mac。
我还将简短地提到Mondrian,虽然我只是简单地尝试了一下,但是似乎具有极好的图形交互性来进行数据探索,尽管(正如我所记得的那样)没有简单的方法来扩展能力或进行统计推断。
在R之上构建的Deducer是一个新的软件系统,它看起来很有前途。不幸的是,由于它是新的,我怀疑它还不能涵盖人们可能会问到的所有问题,但它确实满足了人们的要求。 -引导人们走向真正的一揽子计划的水准标准。
我过去也曾使用过JMP,它具有很好的交互性。我担心某些界面对于这些目的而言可能太复杂了。而且它是非免费的,这使得潜在的电子表格难民很难一时兴起。
还有“ 拨浪鼓”看起来很有希望。
为了探索包含哪些数据并清除数据,以前的Google Refine(现在称为Open Refine)是一个非常不错的GUI。它比Excel之类的功能强大,可以进行准备和清理。然后切换到类似R-Commander的工具进行分析。
任何回答R或其中任何一个“ GUI”的人都没有读过这个问题。
有一个专门为此设计的程序,称为JMP。是的,它很昂贵,尽管它有免费试用版,但对学生或大学工作人员来说却非常便宜(例如便宜50美元)。
还有RapidMiner,这是用于数据挖掘和统计分析的基于工作流的GUI。它是免费和开源的。
好吧,这个特定的工具在我的行业中很流行(尽管它不是设计特定的行业):http : //www.umetrics.com/simca
它允许您进行潜在的变量类型多变量分析(PCA和PLS),并且包括所有附带的解释性图解/计算以及询问工具,例如贡献图,变量重要性图,Q2计算等。
它通常用于不适合使用OLS / MLR类型方法的高维(通常是高度相关/共线性)工业数据集(例如,来自大量传感器的信息,日志信息等)。
它在完全GUI环境中运行,用户无需编写任何代码。不幸的是,它不是免费的,并且不能通过编程进行扩展。
我认为,如果您不自行编写测试代码,则很容易出现错误和对结果的误解。
我认为您应该建议他们雇用具有计算机技能的统计学家。
如果要总是做同样的事情,那么实际上您可以使用一个小型工具(黑盒)来完成任务。但是我不确定这仍称为数据探索。
我会推荐约翰·福克斯(John Fox)的R包,称为R commander:
http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/
它创建了一个类似于SPSS(或类似产品)的用户界面,该界面非常适合初学者,完全不需要用户输入任何代码。全部通过下拉框完成(您甚至可以在工作时最小化R控制台)。
对我来说,此软件包的好处在于,您可以利用R的所有强大计算能力,同时拥有一个对初学者完全可用的用户界面。
Spotfire是另一个有用的工具,尽管仅适用于Windows,但它对于快速查看单个变量对和变量对的各种直方图和散点图非常有用。一种研究工具,可帮助您根据简单的统计信息对单个变量和对进行排名-HCIL的Hierarchical Clustering Explorer。查找最有趣的变量/变量对非常好。