我正在从事一个涉及14个变量和345,000个房屋数据观测值的项目(例如建造年份,平方英尺,已售价格,居住县等)。我担心要尝试找到好的图形技术和包含好的绘图技术的R库。
我已经看到ggplot和lattice中的内容会很好地工作,并且我正在考虑为一些数字变量绘制小提琴图。
人们会建议使用哪些其他软件包来以清晰,简洁,最重要的是简洁的方式显示大量的数字或因子类型的变量?
我正在从事一个涉及14个变量和345,000个房屋数据观测值的项目(例如建造年份,平方英尺,已售价格,居住县等)。我担心要尝试找到好的图形技术和包含好的绘图技术的R库。
我已经看到ggplot和lattice中的内容会很好地工作,并且我正在考虑为一些数字变量绘制小提琴图。
人们会建议使用哪些其他软件包来以清晰,简洁,最重要的是简洁的方式显示大量的数字或因子类型的变量?
Answers:
最好的“图形”是如此明显,没人能提及:制作地图。房屋数据从根本上取决于空间位置(根据有关房地产的旧见解),因此要做的第一件事是为每个变量制作清晰的详细地图。要以百万分之三的点来做到这一点,确实需要具有行业优势的GIS,这可能会缩短过程。之后,继续进行概率图和箱形图以探索单变量分布,绘制散点图矩阵和徘徊的原理图箱形图等以探索依赖关系是有意义的-但是这些地图将立即建议要探索的内容,如何对模型进行建模数据关系,以及如何在地理上将数据分解为有意义的子集。
ggplot2
(特别是如果你不需要提请国家边界),had.co.nz/ggplot2/coord_map.html。否则maps
,gmaps
会更好。还有GeoXp
一个GRASS的R接口。顺便说一句,蒙德里安(Mondrian)有一个地理数据插件:)
lattice
的levelplot
和成功地取得了成功contourplot
。包fields
具有一些不错的功能,包括quiltplot
如果您的数据不严格位于网格上则很不错。它还具有出色的薄板样条函数,可Tps
将未栅格化的数据平滑到栅格。对于专用的GIS软件,GRASS在某种程度上对我来说毫无意义,我更喜欢QGIS。
我建议您看一下GGobi,它也具有R接口,至少出于探索目的。它具有许多图形显示,对于处理大量观测值和变量并将它们链接在一起特别有用。您可能希望先观看Learn GGobi页面上的“观看演示”部分下的一些视频。
更新资料
链接到chl在评论中建议的Hadley Wickham的GGobi工具:
DescribeDisplay
和clusterfly
。
我觉得您实际上是在问两个问题:1)要使用哪种类型的可视化,以及2)什么R包可以产生它们。
对于要使用哪种类型的图,有很多,并且取决于您的需求(例如:变量类型-数字,因子,地理等,以及您要显示的连接类型):
现在关于如何做。许多数据点的问题之一是创建绘图所需的时间。ggplot2,iplot,ggobi对于太多的数据点不是很好(至少从我的经验来看)。在这种情况下,您可能希望专注于R基础图形工具,或者对数据进行采样,然后使用所有其他工具。或者,您可以希望开发iplot Extreme(或Acinonyx)的人员能够进入提前发布阶段。
rflowcyt
和Acinonyx 的链接。
rflowcyt
已在Bioconductor的最新版本中弃用,现在建议使用flowViz
。无论如何,都依靠lattice
。
iplots
@ Tal引用了您的“等效” R版本。关于Paraview,您可以选择保存Viz的屏幕截图。DescribeDisplay
是从GGobi(cran.r-project.org/web/packages/DescribeDisplay/index.html)导出动态可视化的方法。
我想提请您注意“ 平行坐标:视觉多维几何及其应用”,其中包含该领域的最新突破和应用。
这本书受到斯蒂芬·霍金等人的称赞。曲面通过其法线矢量在其点进行描述(使用对偶性)。它包含以下方面的应用:空中交通管制(自动防撞-3项美国专利),多元数据挖掘(在具有数百个变量的真实数据集上),多目标优化,过程控制,重症监护智能显示器,安全性,网络可视化以及最近的大发展数据。