乍一看数据集


10

请原谅我的无知,但是...

我不断遇到自己设法找到的大量新数据的情况。这些数据通常看起来像这样:

Date     Number1  Number2  Category1  Category2
20120125      11      101        Dog      Brown
20120126      21       90        Cat      Black
20120126      31      134        Cat      Brown
(...)

通常乍一看,我真的无法分辨这里是否有任何趋势。各个列之间的相关性可能不是很重要,但是如果我不必为每种可能的列/类别组合手动创建图,我将感到非常高兴。

是否有工具可以接受数据表以及信息,哪些列应被视为数字,日期和类别,然后进行绘制:

  • 每两个数值列之间的相关性
  • 每两个数值列之间的相关性,每个类别具有单独的趋势线
  • 每个数字列作为时间序列,
  • 每个数字列都是一个时间序列,按类别分开,
  • 等等

最后,这将生成大量图,其中大多数图仅显示噪声。理想情况下,该工具可以通过相关性对图进行评分,最后显示从得分最高的图开始的幻灯片显示。这将是非常不完美的,但乍一看对数据集很有用。

所以?是否有每个人都使用的工具,而我对此却一无所知,还是我们需要制作此工具?


非常感谢大家的回答。我正在花时间测试您在数据中提到的每个工具。测试后,我会选择一个答案。我想这太糟糕了,我不能挑一个以上的:)
postrational

Answers:


15

@Ondrej和@Michelle在这里提供了一些很好的信息。我想知道我是否可以通过解决其他地方未提及的问题做出贡献。我不会为无法从表格形式的数据中收集到很多东西而自暴自弃,表通常不是一种很好的表示信息的好方法(参见Gelman等人,《将表变成图表》)。另一方面,寻找一个可以自动生成所有正确图形以帮助您探索新数据集的工具,就像寻找一个可以为您做思考的工具一样。(不要误解,我知道您的问题清楚地表明您没有走那么远;我只是说永远不会真正有这样的工具。)可以找到与此相关的精彩讨论在这里

说了这些话,我想谈一谈您可能想用来探索数据的图表类型。问题中列出的图解将是一个好的开始,但是我们也许可以对其进行一些优化。首先,使“成对的变量”成对关联变量可能不是理想的。散点图仅显示两个变量之间的边际关系。重要的关系通常可以隐藏在多个变量的某种组合中。因此,增强这种方法的第一种方法是制作散点图矩阵同时显示所有成对散点图。可以通过多种方式增强散点图矩阵:例如,可以将它们与每个变量分布的单变量核密度图结合使用,可以使用不同的标记/颜色绘制不同的组,并可以通过叠加黄土拟合来评估可能的非线性关系。scatterplot.matrixR中的car包中的函数可以很好地完成所有这些操作(可以在上面链接的页面的一半下方看到一个示例)。

但是,尽管散点图矩阵是一个不错的开始,但它们仍仅显示边际投影。有几种方法可以尝试超越此范围。一种方法是使用R中的rgl包探索3维图。另一种方法是使用条件图。coplot可以同时帮助3或4个变量之间的关系。一种特别有用的方法是交互使用散点图矩阵(尽管这将需要更多的努力来学习),例如通过“刷”。刷涂允许您突出显示矩阵的一帧中的一个或多个点,而这些点将同时在所有其他帧中被突出显示。通过四处移动画笔,您可以看到所有变量如何一起变化。更新:我忘记提及的另一种可能性是使用平行坐标图。这有一个缺点,即不能使您的响应变量与众不同,但是在例如检查X变量之间的相互关系方面可能很有用。

我也要赞扬您检查按收集日期排序的数据。尽管总是随时间收集数据,但人们并不总是这样做。绘制线形图很好,但是我建议您用自相关局部自相关图来补充它。在R中,这些函数分别为acfpacf

我认识到,在为您提供一种可以自动为您自动绘制所有图的工具的意义上,所有这些都不能完全回答您的问题,但是,这意味着您实际上不必像担心的那样绘制多张图例如,散点图矩阵仅一行代码。另外,在R中,应该可以为自己编写一个函数/一些可重用的代码,从而部分地自动化其中的一部分(例如,我可以想象一个函数接受一个变量列表和一个日期顺序,并对它们进行排序) ,为每个带有线图,acf和pacf图的窗口弹出一个新窗口。


一如既往地出色。:)
米歇尔(Michelle)

2
(+1)千万不要错过ggobi以及marginal.plot来自gridExtra包。
chl 2012年

7

每对数字列之间的相关性可以在相关矩阵中显示。它不必是纯数字的,可以用颜色编码,以便快速浏览评估。查看corrplot软件包中的R。

为了进一步分析,Rattle是一个非常有用的GUI工具。

如果使用关键字“ Corrplot”或更确切地说是“ Rattle”搜索Stack Exchange,则会发现涉及这些工具及其替代方法的几个主题。喜欢这个

祝好运!


4

@Ondrej提供了一些很好的建议,因此,我将重点关注您的问题,即软件如何处理导入的数据。对于字符数据“类别1”和“类别2”,该软件会自动将它们视为组或因子,因为无法对这些数据进行数学运算。这意味着您将无法输入那些类别中的任何内容(或者,如果尝试使用语法或命令行而不是菜单驱动的系统,则尝试输入错误)。

对于“数字1”和“数字2”之类的数据,软件会将其读取为数字。如果您有任何包含纯数值数据的组/因子,则需要指示软件这些是组/因子。

有时日期可能会严重导入统计软件。导入数据后,您应该看到统计软件中的数据类型正在为“日期”显示某种形式的“日期”类型。如果您看到的数据类型不是日期,则说明存在问题。即使将其显示为日期,也请检查某些日期行的导入,例如日期(例如每月的13号或25号),具体取决于软件的设置方式,有时美国/英国日期格式会导致导入时产生错误的数据,因为日期/月份是相反的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.