易于强大的数据探索软件

20

在抵制电子表格混乱的尝试中，我经常宣扬福音，寻求更强大的工具，例如真正的统计软件（R，Stata等）。最近，有人断然地说他们根本不会学习编程，这使我对这种观点提出了挑战。我想为他们提供不需要编程的数据分析工具（但理想情况下，如果他们决定以后将脚趾浸入水中，则可以扩展到编程）。我可以推荐什么样的数据探索软件包？

data-visualization software

— 阿里·弗里德曼
source

5

@ gsk3-一个有趣的问题。我猜想这个“程序恐惧症”不必处理复杂的电子表格吗？也许他/她想遵循他们的意识形态，并自愿对电子表格进行艰苦的工作？:)

— 概率

@probabilityislogic：一旦它们引起问题，“ programaphobe”确实会处理它们，但是有很多技巧可以处理结果。我尝试了经典的反电子表格参数，但收效甚微（嗯，有些收效，因为他们愿意考虑这种解决方案！）。

— Ari B. Friedman

@ gsk3-啊哈，所以这本身不是问题所在的程序，但是此人将不再是“专家”，而必须从头开始？

— 概率

2

@probabilityislog-我认为沉没成本是问题的很大一部分，是的。这些成本中的一些无疑是社会成本，其中一些是在学习新的做事方式时所浪费的时间和效率。

— Ari B. Friedman

3

我认为这部漫画可能是情况的恰当代表。如果您所指的人对编程一无所知，那么这可能是强烈反对的选择。更好的策略可能是指出基于电子表格的分析的缺陷。例如，尝试在新的Excel文件中输入值和并对其求和（在Excel 2007上有效）。然后解释说，没有任何自尊的统计数据包会在没有任何警告的情况下提供类似的错误，并且不会因此而起作用。

1 \frac{1}{6}

$1\frac{1}{6}$

1 \frac{1}{4}

$1\frac{1}{4}$

— mpiktas 2011年

7

我用Python编写了95％的工作，其余的则用R或MATLAB或IDL / PV-WAVE（以及不久的SAS）编写。但是，我所处的环境中，获得结果的时间通常是选择分析的巨大推动力，因此我也经常使用点击工具。以我的经验，没有单一，强大，灵活的GUI工具可以进行分析，就像没有一种语言一样。我通常将以下免费和商业软件的集合拼凑在一起

威卡
尼米
Excel及其插件（例如Solver）
Alteryx
MVP统计

我没有使用过JMP，Stata，Statistica等，但是想使用。

使用这些工具涉及学习不同的GUI和建模的多种抽象，这在当时是很痛苦的，但是让我稍后获得更快的临时结果。我和OP在同一条船上，因为虽然与我一起工作的大多数人都很聪明，但他们并不关心学习一种语言，也不关心多个GUI和特定于应用程序的术语。因此，我已经辞职了，接受Excel在业务领域中驱动90％的分析。因此，我正在寻找使用pyinex之类的功能，以便为绝大多数同事期望的同一Excel表示层提供更好的分析。

更新：继续执行“编程编程但制作Excel演示层”主题，我刚遇到这个人的网站，提供Tufte样式的图形嵌入Excel单元格中。简直很棒而且免费！

— 乔什·赫曼
source

1

我会说JMP很好。即使一个人非常精通R，有时JMP还是一种导航和分析数据的更快方法。

— Iterator 2012年

8

就探索性（可能是交互式的）数据分析而言，我建议您看一下：

Weka最初面向数据挖掘应用程序，但可用于数据摘要。
Mondrian，用于交互式数据可视化。
KNIME依赖于构建数据流的思想，并且与Weka和R兼容。

这三个都接受arff或csv格式的数据。

我认为，Stata不需要那么多的编程专业知识。实际上，这甚至是其吸引力的一部分：大部分基本分析都可以通过点击用户的动作来完成，带有用于自定义特定参数（例如用于线性模型预测）的对话框。当使用@ gsk3所说的Rcmdr，Deducer等外部GUI时，R同样适用于R，尽管程度较小。

— hl
source

Stata +1。您可以通过单击n键来完成所有基础操作，但是它也会吐出单击n键所生成的命令，以便您可以学习/修改它。尽管您没有将公式放在单元格中，但在如何与数据交互方面也类似于电子表格。

— 韦恩2014年

8

有些人认为编程只是输入命令行语句。到那时，也许您在鼓励他们方面有点迷失了。但是，如果他们已经在使用电子表格，那么他们已经必须输入公式。这些类似于命令行语句。如果他们真的是说他们不想在逻辑和自动化分析的意义上进行任何编程，那么您可以告诉他们他们仍然可以在R或Stata中进行分析，而无需进行任何编程。

如果他们可以在电子表格中进行统计...他们想做的所有事情...，那么就可以完成他们希望完成的所有统计分析，而无需在R或Stata中进行“编程”。他们可以安排和整理电子表格中的数据，然后将其导出为文本。然后，无需进行任何编程即可进行分析。

有时这就是我向R介绍的方式。无需编程即可进行电子表格中可以进行的数据分析。

如果您以这种方式迷住了他们，那就慢慢来吧……:)几年来称赞他们成为了一个好的程序员。

您可能还希望向同事展示此文档，或者至少自己阅读以更好地表达自己的观点。

— 约翰
source

1

不错，但这里有一些警告：Excel中有一些工具提示，当在单元格中输入公式时会弹出这些提示，因此可以更轻松地对简单任务进行“编程”。另外，由于Excel高级用户很多，如果您遇到困难，旁边的人可能会为您提供帮助。并且，Excel已安装。说服某人尝试R涉及帮助他们设置R和学习如何利用开源软件（以及要搜索的论坛，应使用多少个bootstrap软件包等）。从某种意义上说，编程是最简单的部分。它是生态系统中最难的部分。

— Josh Hemann

在Excel中也没有真正的格式问题...在R中，有时一个程序包使用xts，另一个使用data.frames ...对于新手来说一团糟，这是真的

— RockScience

fRed，我同意数据格式可能存在问题，但请记住，我的回答被视为可以在电子表格中完成的分析。这并不是很多变化的分析，并且通常会采用一种数据格式。

— 约翰

使用R进行“编程”要比使用Excel进行更多的开销，这些都是使用户发疯的事情。如果R具有类似于数据透视表的顶级GUI，也许。但直到那时...

— 拉尔夫·温特斯

8

我将在这里介绍JMP。有两个原因使它成为我首选的非编程数据探索工具：

真正好的可视化工具。最基本的EDA型图，它和R一样好，并且很容易用于生成接近可发布图的图。它还具有一些非常灵活的可视化工具，因此您可以扭曲和弯曲数据以获取完整的故事。
令人惊讶的强大。直到我... 4年级的研究生毕业，我才发现JMP无法立即解决的问题。不错
可脚本化。对我来说这是一件大事。GUI的主要缺点是很难复制您所做的工作。JMP允许您编写GUI脚本-只需单击即可生成这些脚本。

— 方铁
source

JMP +1。这是我用过的最好的基本统计gui。

— Zach

1

同意（与第一点保持一致）。在某些方面，对于EDA而言，它甚至比R更好，并且可以很好地插入到迭代工作流中。如果已经在没有R的情况下工作，那么JMP是不添加R的合理工作方式。由于RMP也可以链接到R，因此R程序员可以创建工具，然后再插入JMP，从而允许Eloi，errr，用户继续相信一切都只是花花公子。

— Iterator 2012年

6

我可以推荐Tableau作为数据探索和可视化的一个很好的工具，这是因为您可以通过拖放来探索和查看数据的不同方式。这些图形非常清晰，您可以轻松地输出为PDF进行演示。如果需要，可以通过一些“编程”对其进行扩展。我经常将此工具与“ R”和SAS一起使用，并且它们都能很好地协同工作。

— 拉尔夫·温特斯
source

3

正如John所说，数据探索在R中不需要太多编程。这是您可以提供给人们的数据探索命令的列表。（我刚刚想到了这一点；您当然可以扩展它。）

从它所在的任何包中导出数据。（导出不带引号的数字数据很方便。）然后在R中读取数据。

ChickWeight=read.csv('chickweight.csv')

做一张桌子。

table(ChickWeight$Diet)

让R猜想给你什么样的图形。有时效果很好。

plot(ChickWeight)
plot(ChickWeight$weight)
plot(ChickWeight$weight~ChickWeight$Diet)

一堆特定的绘图功能非常简单地作用于单个变量。

hist(ChickWeight$weight)

取子集

plot(subset(ChickWeight,Diet=='2'))

如果人们习惯了类似SQL的语法（更多信息请参见）

library(sqldf)
plot(sqldf('select * from ChickWeight where Diet == "2"'))

PCA（您当然会有两个以上的变量。）

princomp(~ ChickWeight$weight + ChickWeight$Time)

— 托马斯·莱文
source

3

这更多的是哀叹而不是答案。

我所见过的最好的软件是Arc，它是基于Xlisp-Stat构建的。这是一款出色的数据探索软件，具有许多内置的交互式图形以及许多统计推断功能。在我看来，没有什么比它易于进行数据探索和使用Lisp编程进一步扩展它的能力更强了。我认为，十年后，R中的交互性才开始以Arc之类的方式开始使用。据我所知，还没有人使用这些功能来构建一个交互式界面，该界面几乎与Arc一样有用。

不幸的是，它从来没有真正流行过，因此开发人员几乎全部都转而使用R。它的最新更新时间为2004年7月。PC和Linux / Unix版本仍然可以使用，根据您的需要，可能值得尝试。对于Mac而言，最好的选择是尝试在X11下使用Linux / Unix版本，我已经知道它可以在几种系统上运行。网站上提到的Mac版本仅适用于“经典” Mac。

我还将简短地提到Mondrian，虽然我只是简单地尝试了一下，但是似乎具有极好的图形交互性来进行数据探索，尽管（正如我所记得的那样）没有简单的方法来扩展能力或进行统计推断。

— 亚伦-恢复莫妮卡
source

还没有听说过Arc，但是要检查一下。谢谢。

— Ari B. Friedman

1

（+1）很高兴再次听到Lisp世界。我也非常喜欢xlispstat（感谢Luke Tierney在R项目中非常活跃）。

— chl

3

在R之上构建的Deducer是一个新的软件系统，它看起来很有前途。不幸的是，由于它是新的，我怀疑它还不能涵盖人们可能会问到的所有问题，但它确实满足了人们的要求。 -引导人们走向真正的一揽子计划的水准标准。

我过去也曾使用过JMP，它具有很好的交互性。我担心某些界面对于这些目的而言可能太复杂了。而且它是非免费的，这使得潜在的电子表格难民很难一时兴起。

还有“ 拨浪鼓”看起来很有希望。

— 阿里·弗里德曼
source

关于JMP-如果我没记错的话，有合理的试用版本和学术许可。

— Iterator 2012年

3

为了探索包含哪些数据并清除数据，以前的Google Refine（现在称为Open Refine）是一个非常不错的GUI。它比Excel之类的功能强大，可以进行准备和清理。然后切换到类似R-Commander的工具进行分析。

— 约翰
source

2

任何回答R或其中任何一个“ GUI”的人都没有读过这个问题。

有一个专门为此设计的程序，称为JMP。是的，它很昂贵，尽管它有免费试用版，但对学生或大学工作人员来说却非常便宜（例如便宜50美元）。

还有RapidMiner，这是用于数据挖掘和统计分析的基于工作流的GUI。它是免费和开源的。

— 尼尔·麦圭根
source

1

@Neil为什么会这样？OP指定“但理想情况下将扩展到编程...”。R已插入几乎所有商业软件（例如SPSS，JMP，Statistica）或免费（Knime，Rapidminer）统计软件，并且Rserve可用作与R进行通信的后端（例如，用于基因研究的plink软件），它用于此目的。JMP的免费试用版不允许您使用外部数据集，对吗？（有趣的是，我们所有回答R的人以及其他软件都被否决了。）

— chl

我喜欢R并且很支持R，但是想要学习统计数据/数据挖掘并且不知道如何编程的人真的不能使用它。而且我玩过它的所有gui，与jmp相比，它们简直太恐怖了。我只是在等待R获得像jmp这样的gui的那一天，那么在宇宙中一切都会好起来的。

— 尼尔·麦奎根

-1表示人们在回答之前不阅读问题，也没有提供任何真实的论据来解释为什么R比JMP或RapidMiner更糟糕。请注意，总的来说，我同意R不能解决所有问题，但是这个话题与真正令人讨厌的潜力有点矛盾。因此，投降票。

— mpiktas 2011年

R很棒，但这并不容易。那就是他在标题中要求的。

— 尼尔·麦圭根

@Neil，是的，但是您可以辩称，没有像现在这样容易进行的数据探索这样的事情。

— mpiktas 2011年

1

好吧，这个特定的工具在我的行业中很流行（尽管它不是设计特定的行业）：http : //www.umetrics.com/simca

它允许您进行潜在的变量类型多变量分析（PCA和PLS），并且包括所有附带的解释性图解/计算以及询问工具，例如贡献图，变量重要性图，Q2计算等。

它通常用于不适合使用OLS / MLR类型方法的高维（通常是高度相关/共线性）工业数据集（例如，来自大量传感器的信息，日志信息等）。

它在完全GUI环境中运行，用户无需编写任何代码。不幸的是，它不是免费的，并且不能通过编程进行扩展。

— 吉列德
source

1

我认为，如果您不自行编写测试代码，则很容易出现错误和对结果的误解。

我认为您应该建议他们雇用具有计算机技能的统计学家。

如果要总是做同样的事情，那么实际上您可以使用一个小型工具（黑盒）来完成任务。但是我不确定这仍称为数据探索。

— 岩石科学
source

1

我或多或少都同意这种观点，但是我认为在许多情况下这种高瞻远瞩的观点确实是不可能的。

— Ari B. Friedman

1

我会推荐约翰·福克斯（John Fox）的R包，称为R commander：

http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/

它创建了一个类似于SPSS（或类似产品）的用户界面，该界面非常适合初学者，完全不需要用户输入任何代码。全部通过下拉框完成（您甚至可以在工作时最小化R控制台）。

对我来说，此软件包的好处在于，您可以利用R的所有强大计算能力，同时拥有一个对初学者完全可用的用户界面。

— 墨菲船长
source

1

Spotfire是另一个有用的工具，尽管仅适用于Windows，但它对于快速查看单个变量对和变量对的各种直方图和散点图非常有用。一种研究工具，可帮助您根据简单的统计信息对单个变量和对进行排名-HCIL的Hierarchical Clustering Explorer。查找最有趣的变量/变量对非常好。

— lynxoid
source