我正在搜索可用于测试正在研究的多种datavis技术的现有数据集。
我知道一些资源,例如R中包含的资源(请尝试plot(Orange)
或在此处查看)。
但我想向前迈出一步:
- 哪些是测试可视化工具的最佳现实数据集?
- 您在有关datavis的学术论文或教学幻灯片中使用了哪些数据集?
- 在现实世界中,哪一个是最好的例子来展示制图的优势?
我正在搜索可用于测试正在研究的多种datavis技术的现有数据集。
我知道一些资源,例如R中包含的资源(请尝试plot(Orange)
或在此处查看)。
但我想向前迈出一步:
Answers:
互联网上有大量可用的数据库。根据主题,您可以获得不同的来源。
例如,在人类发展主题领域,您可以在(http://hdrstats.undp.org/)上获得数据源:
http://hdrstats.undp.org/en/tables/default.html
对于气候变化观测,在(http://www.ipcc-data.org/)上有一个包含高分辨率气候数据的网站,例如:
http://www.ipcc-data.org/obs/cru_ts2_1.html
这两个示例均包含已发表的科学论文中使用的真实数据以及大量数据。时间相关和/或空间相关的数据。这些数据的可视化可能性是无限的。
我喜欢使用Anscombe数据集(在R中也可用)来显示进行回归时绘图的重要性。如果您不熟悉,即使这四个数据集看起来都大不相同,您也会从所有四个数据集中获得相同的回归线和诊断信息。您可以将下面的图转换成残差图,以说明执行回归后可能在残差中查找的问题。
威廉·S·克利夫兰(William S.Cleveland)拥有两本充分利用图形的书籍,而在“可视化数据”中创建图形的数据和代码在他的网站上
可能您已经知道这些,但是无论如何在这里它们是:
在UCI机器学习复位器 y具有许多可公开访问的,现实世界的数据集。
美国政府在data.gov上公开了许多数据集。
如果您需要一些棘手的可视化数据,建议您查看分类任务。在我看来,UCI MLR上设置的“语言袋”具有一些不错的属性,但我可能会误会(自从使用它以来已有一段时间)。
这里有一些。
Sci2工具样本数据集
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
与Sci2工具捆绑在一起的样本数据集。
Tableau示例数据集
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
用于Tableau入门的示例数据集。
很棒的公共数据集
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
此公共数据源列表是从博客,答案和用户响应中收集并整理的。大多数数据集都是免费的,有些不是。
这个线程比较旧,希望这个颠簸能够带来一些新的贡献!
我刚刚注意到这里有大量的数据集:
http://www.inside-r.org/howto/finding-data-internet
不知道这有什么用吗?
恐怕我不会讲可视化,所以我无法评论您的特定问题。