Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)

2
可视化样条曲线基础
教科书在解释主题时,通常会以漂亮的示例样条为基础,说明统一样条曲线的基础。像是线性样条线的一排小三角形,或者是三次样条线的一排小驼峰。 这是一个典型的例子: http://support.sas.com/documentation/cdl/zh-CN/statug/63033/HTML/default/viewer.htm#statug_introcom_a0000000525.htm 我想知道是否有使用标准R函数(如bs或ns)生成样条曲线基础图的简便方法。我猜想有一个简单的矩阵算术与一个琐碎的R程序相结合,可以优雅地吐出漂亮的样条曲线图。我只是想不到!

4
ACF和PACF公式
我想创建一个用于从时间序列数据中绘制ACF和PACF的代码。就像从minitab生成的图一样(如下)。 我已经尝试搜索该公式,但是我仍然不太了解它。 您介意告诉我该公式以及如何使用它吗? 上面的ACF和PACF图上的水平红线是什么?公式是什么? 谢谢,

2
墨水与数据的比例和绘图背景
我注意到,许多“最先进的”绘图程序包和主题以及许多杰出的数据人员都使用灰色背景绘制绘图。以下是几个示例: ggplot2: Nate Silver的fourthirtyeight.com: 虽然在上面的第一个示例(ggplot2)中,有人可能会争辩说使用灰色背景会减少网格线所需的墨水,但第二种情况肯定不是这种情况。与白色或透明背景相比,使用灰色背景有什么优势?

3
如何用极端离群值呈现箱形图?
我可以使用有关呈现某些数据的指导。 第一个图是细胞因子IL-10的病例对照比较。我已手动将y轴设置为包括99%的数据。 我之所以手动设置,是因为案例组具有极端的异常值。 我的合作者不愿对我们的数据集进行异常值移除。我可以接受,但他们宁愿不接受。那将是显而易见的解决方案。但是,如果我要保留所有数据而不是删除此异常值,那么如何最佳显示此箱线图?分割轴?仅使用第一个图并注意它被构造为包含所有数据是否可以接受?(此选项对我来说是不诚实的)。任何建议都很好。

2
是否有用于演示的统计图的样式指南?
我正在寻找有关如何为演示文稿最佳设置图形格式的建议/资源/建议。根据经验,我知道为印刷出版物制作的图形在使用投影仪显示时不会很好地“缩放”。文本通常太小,线条不够粗等。将.eps / .pdf文件直接放入演示文稿中几乎总是一个坏主意。 使用投影仪向广大观众展示图表时,是否有推荐的风格指南?

2
列联表的筛子/镶嵌图的替代品
我曾经偶然发现过一种我非常喜欢的用于Internet上分类数据(即列联表)的图表,但是我再也找不到了,甚至不知道它叫什么。它本质上就像一个筛图,因为行高和列宽是相对于边际概率缩放的。因此,将每个框缩放到独立时预期的相对频率。但是,它与筛网图的不同之处在于,它不是在每个框内绘制交叉影线,而是在每个观测值的双变量均匀变量中随机选择的位置绘制了一个点(类似于散点图)。这样,点的密度反映了观察到的计数与预期计数的匹配程度。也就是说,如果每个框中的密度都相似,则空模型是合理的,我,Ĵ一世,Ĵi,j)在空模型下可能不太可能。因为是绘制点而不是阴影线,所以绘制的元素与观察到的计数之间存在简单直观的对应关系,对于筛网图不一定是正确的(见下文)。此外,点的随机放置使绘图具有“有机”感觉。此外,颜色可用于突出显示与零模型有很大差异的框/单元格,并且图矩阵可用于检查许多不同变量之间的成对关系,因此可以结合相似图的优点。 有谁知道这个阴谋叫什么? 是否有可以在R或其他软件(例如Mondrian)中轻松实现此功能的软件包/功能? 我在vcd中找不到类似的东西。当然,从头开始可能很难对其进行编码,但这会很痛苦。 这是一个筛分图的简单示例,请注意,很容易看出在空模型下不同类别的预期计数应如何发挥作用,但很难将交叉影线与实际数字相协调,从而产生了一个不相当容易阅读并且在美学上很丑陋: B ~B A 38 4 ~A 3 19 就其价值而言,镶嵌图具有相反的问题:尽管更容易查看哪些单元格具有“太多”或“太少”的计数(相对于null模型),但更难于识别出它们之间的关系。预期数会是。具体来说,列宽是相对于边际概率缩放的,而行高却不是,因此几乎无法提取该信息。 现在换个完全不同的东西... 有谁知道使用蓝色表示“太多”而使用红色表示“太少”的约定从何而来?这对我一直都是违反直觉的。在我看来,是非常高的密度(或太多的意见)去与热,低密度去与冷,而且(至少在舞台灯光)红色是变暖和蓝色是库尔斯。 更新: 如果我没记错的话,我看到的情节是一本书的pdf文件(简介或ch1),该书是作为市场营销预告片免费在线提供的。这是我从头开始编写的想法的粗略版本: 即使使用此粗略版本,我认为它也比筛图更易于阅读,并且在某些方面比镶嵌图更容易理解(例如,更容易识别它们之间的关系)。单元频率之间的差异将是独立的)。这将是很好的函数是:一。将使用任何列联表自动执行此操作;b。可以用作绘图矩阵的构建块,并且c。 会具有上述图所附带的出色功能(例如镶嵌图上的标准化残差图例)。

4
一个人如何主观排名的结果?
我正在寻找一种可视化主观排名的方法,与我的非参数测试分开。 我已经请12名参与者根据不同的主观标准对8个不同的项目进行排名(每个项目分别进行排名)。对于任何单独的排名,我都在寻找一种可视化排名高级趋势的好方法。 我已经在平均排名上尝试了条形图和雷达图,而且我看到另一个人在每个排名的响应数上使用了散点图/气球图,但是我不确定是什么传达了最好的概观。我可以使用8个平均排名,也可以使用每个项目的每个排名的8个计数。 编辑: 例如:每列是一个项目,每行是一个人对八个项目中每个项目的排名。在此示例中,并不是一个特别强的协议,但总的来说,我们希望了解传达总体趋势的最佳方法。 Item: A B C D E F G H Rater: 1 6 8 1 7 3 4 2 5 2 1 3 8 7 6 5 2 4 3 5 8 7 6 1 4 2 3 4 5 8 7 6 4 2 1 …

3
交互式数据可视化什么时候有用?
在准备一个演讲中,我将尽快给,我最近开始挖成两个主要(免费)工具,交互式数据可视化:GGobi和蒙德里安 -都提供大范围的能力(即使他们有点马车)。 我想请您帮助阐明(对我自己,以及对我的未来听众​​)何时使用交互式图解会有所帮助?用于数据探索(针对我们自己)和数据表示(针对“客户”)? 对于向客户解释数据时,我可以看到以下动画的值: 使用“标识/链接/画笔”来查看图形中的哪个数据点是什么。 呈现数据的敏感性分析(例如:“如果我们删除这一点,这将是我们得到的) 在数据中显示不同组的影响(例如:“让我们看看我们的男性图表,现在是女性图表”) 显示时间的影响(或年龄,或总体而言,为演示文稿提供另一个维度) 对于我们自己探索数据时,在我们正在研究的数据集中探索异常值时,我可以看到标识/链接/刷涂的价值。 但是除了这两个示例之外,我不确定这些技术还提供了哪些实际用途。特别是对于我们自己的数据探索! 可以说,交互部分对于探索(例如)数据中不同组/集群的不同行为非常有用。但是,当(在实践中)我遇到这种情况时,我倾向于做的是运行相关的统计程序(以及事后检验),然后我发现很重要的事情会用彩色清楚地将数据划分为相关群体。从我所看到的情况来看,这是一种比“游刃有余”的数据更安全的方法(这很容易导致数据疏导(校正所需的多重比较的范围甚至不清楚)。 我很高兴阅读您在此问题上的经验/想法。 (此问题可以是Wiki-尽管它不是主观的,并且经过深思熟虑的答案将很乐意赢得我的“答案”标记:))



2
我应该如何组织我的海报展示?
我目前正在制作海报演示文稿,并希望就图形的某些方面提供一些建议(或参考建议)。例如,我正在谈论的示例海报,请参阅《计算与图形统计杂志》第20卷第2期中的ASA Data Expo文章的补充材料(另一个示例在此处(Hendrix等人,2008年))。还要注意,如果重要的话,我将站在打印好的海报上,如果有路人要求,请提供一份有关该项目的更多详细信息的论文,该场地将是一次学术会议。 图形中应如何显示对象的流动。使用英语的人通常从左到右阅读,我的海报中的面板应该遵循相同的面板吗?例如(考虑序号,我打算阅读面板的顺序),表1的顺序是否总是比表2更好? Table 1: 1 2 3 Table 2: 1 3 5 4 5 6 2 4 6 单个图形应该多大/小?当人们停下来观看图形时,比如说他们仍然站在院子里(这是合理的假设吗?),图形元素仍可解释的最小尺寸大约是多少?我是否应该在乎(如果他们需要阅读图例/轴,他们会着眼睛)? 多少是太多了?提供的信息量是否有明显的限制?图形附带的文字也是如此。我可以告诉我图形中是否有太多文字?有什么经验法则吗? 我看到的许多海报都有不同大小的面板,并且没有明显的对齐方式。我个人不喜欢这样(它对我来说是无序的),但是我只是被诅咒吗?我订购当前海报的方式与我刚刚撰写论文的分析部分的方式类似,但是这种订购方式不适用于海报展示吗?作为有序部分的反例,可以有一个中央图形,在海报的中央放大,然后用较小的面板围绕中央图形,并附加其他补充信息。 如果人们有一些他们认为特别有效的海报示例(无论出于何种原因),并解释您为什么认为他们有效(或仅在美学上令人愉悦),我也将感兴趣。我也对正面情况感兴趣(例如,海报效果特别差)。 Nathan Yau在流动数据博客上进行数据可视化的许多工作似乎都与该讨论有关,但对于大多数讨论而言,媒体(一种物理印刷的海报)和观众(学术界)并不是常态。还有其他一些参考资料可以解决这些方面的问题吗?我目前更担心解释而不是“吸引人的眼球”(我认为随着注意力的增强,许多明亮的图形就足够了)。 另外,我会对这些问题的答案感兴趣(例如,您不必花时间回答所有问题)。我全是耳朵。

2
在地图上显示时空相关性
我有整个美国气象站网络的数据。这给了我一个包含日期,纬度,经度和一些测量值的数据框。假设每天收集一次数据,并且受区域范围天气的驱动(不,我们将不进行讨论)。 我想以图形方式显示跨时间和空间的同时测量值如何关联。我的目标是显示正在调查的值的区域同质性(或缺乏同质性)。 资料集 首先,我带了一组在马萨诸塞州和缅因州的车站。我从NOAA的FTP站点上可用的索引文件中按纬度和经度选择了站点。 马上您就会看到一个问题:许多站点具有相似的标识符或非常接近。FWIW,我同时使用USAF和WBAN代码识别它们。深入了解元数据,我发现它们具有不同的坐标和高程,数据从一个站点停止,然后从另一个站点开始。因此,因为我不知道更好,所以必须将它们视为独立的站。这意味着数据包含彼此非常接近的站点对。 初步分析 我尝试按日历月对数据进行分组,然后计算不同对数据之间的普通最小二乘回归。然后,我将所有线对之间的相关性绘制为一条连接测站的线(下图)。线条颜色显示了来自OLS拟合的R2值。然后,该图显示了感兴趣区域中不同站点之间从一月,二月等开始的30多个数据点如何关联。 我已经编写了基础代码,以便仅在每6小时内有数据点时才计算每日平均值,因此数据在各个站点之间应该是可比较的。 问题 不幸的是,在一个绘图上根本没有太多数据可以理解。无法通过减小行的大小来解决。 ķķk 网络似乎太复杂了,所以我认为我需要找到一种降低复杂性或应用某种空间内核的方法。 我也不确定什么是最合适的指标来显示相关性,但是对于目标受众(非技术人员),OLS的相关系数可能只是最简单的解释。我可能还需要提供其他一些信息,例如梯度或标准误差。 问题 我正在学习同时进入该领域和R的方法,并希望就以下方面提出建议: 我要做什么的更正式的名字是什么?有一些有用的术语可以让我找到更多的文献吗?我的搜索正在为必不可少的应用程序绘制空白。 有没有更合适的方法来显示空间上分隔的多个数据集之间的相关性? ...尤其是易于从视觉上显示结果的方法? 这些是否在R中实现? 这些方法是否适合自动化?

2
是否可以使用R创建“平行集”图?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 感谢Tormod的问题(在此处发布),我遇到了“ 平行集”图。这是一个看起来像的例子:( 这是泰坦尼克号数据集的可视化。例如,显示了大多数未幸存的妇女是属于第三类的。) 我希望能够用R复制这样的情节。这有可能吗? 谢谢,塔尔

3
如何在R的barplot中的条上放置值
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6年前关闭。 这个问题与我以前的问题有关。我想将值放在条形图中的条上。我是R中绘图的初学者。

2
Logistic回归如何产生非传统函数的曲线?
我认为我对Logistic回归中的功能如何工作(或者可能只是整体功能)有一些根本的困惑。 函数h(x)如何产生在图像左侧看到的曲线? 我看到这是两个变量的图,但是这两个变量(x1和x2)也是函数本身的参数。我知道一个变量的标准函数映射到一个输出,但是此函数显然没有做到这一点-我不确定为什么。 我的直觉是,蓝色/粉红色曲线并没有真正绘制在该图上,而是一种表示形式(圆圈和X),它们映射到该图的下一个维度(第3个)中的值。这是错误的推理吗,我只是错过了什么吗?感谢您的任何见解/直觉。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.