Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)


6
如何减少序列中的数据点数量?
我已经十多年没有研究统计学(然后只是基础课程),所以也许我的问题有点难以理解。 无论如何,我想做的是减少一系列数据点的数量。x轴是自测量开始以来的毫秒数,y轴是该点的读数。 通常有数千个数据点,但我可能只需要几百个。所以我的问题是:如何准确减少数据点的数量? 这个过程叫什么?(所以我可以用谷歌搜索它)是否有任何首选的算法(我将在C#中实现它) 希望你有一些线索。对不起,我缺少适当的术语。 编辑:更多详细信息在这里: 我得到的原始数据是心率数据,并以自上次搏动以来的毫秒数形式显示。在绘制数据之前,我先计算第一个样本的毫秒数,以及每个数据点的bpm(每分钟心跳数)(60000 / timesincelastbeat)。 我想可视化数据,即将其绘制在折线图中。我想将图中的点数从数千减少到数百。 一种选择是计算系列中每秒的平均bpm,或者也许每5秒左右一次。如果我知道每个周期(5秒间隔的秒)至少要有一个样本,那将是非常容易的。

2
辛普森悖论是否涵盖了所有从隐藏变量撤消的情况?
以下是有关作为“辛普森悖论”存在的“图片证明”提供的许多可视化的问题,以及有关术语的问题。 辛普森悖论是一个相当简单的现象来描述,并给予的(原因数值例子,为什么会发生这种情况是深刻而有趣)。矛盾的是,存在2x2x2列联表(Agresti,分类数据分析),其中边际关联与每个条件关联的方向不同。 也就是说,两个亚群中比率的比较都可以朝一个方向进行,但合并总体中的比率可以朝另一个方向进行。在符号中: 存在使得 a + ba ,b ,c ,d,ē ,˚F,g ^,小时一个,b,C,d,Ë,F,G,Ha,b,c,d,e,f,g,h一个+ bc + d&gt; e + fG+ 小时一个+bC+d&gt;Ë+FG+H \frac{a+b}{c+d} > \frac{e+f}{g+h} 但 和一个C&lt; eG一个C&lt;ËG \frac{a}{c} < \frac{e}{g} bd&lt; fHbd&lt;FH \frac{b}{d} < \frac{f}{h} 在以下可视化中(从Wikipedia)可以准确地表示出这一点: 一小部分是简单地对应的矢量的斜率,并且很容易在该示例中看到,较短乙矢量具有比相应的L矢量更大的斜率,但合并乙向量具有较小比组合1载体斜率。 有许多形式的非常常见的可视化,特别是在Simpson上的Wikipedia参考文献的开头: 这是混淆的一个很好的例子,隐藏变量(将两个子种群分开)如何显示不同的模式。 但是,从数学上讲,这样的图像绝不对应于作为基于辛普森悖论现象的现象的列联表的显示。首先,回归线位于实值点集数据之上,而不是对列联表中的数据进行计数。 同样,可以在回归线上创建具有任意斜率关系的数据集,但是在列联表中,斜率的不同程度受到限制。也就是说,总体的回归线可以与给定子群体的所有回归正交。但是,在辛普森悖论中,尽管不是反向回归,但亚群的比率即使偏离另一个方向,也不会偏离合并的人群(同样,请参见维基百科的比率比较图)。 对我来说,每次我将后者视为辛普森悖论的形象时,都足以吓一跳。但是,由于我到处都看到(我称之为错误的)示例,所以我很想知道: 我是否错过了从原始的Simpson / Yule列联表示例到转化为回归线可视化的真实值的微妙转换? 当然,辛普森的错误是一个特殊的例子。已经术语“辛普森悖论”现在已经成为等同于与混杂的错误,所以,无论数学,任何通过隐变量的方向变革,可以称之为辛普森悖论? 附录:以下是对2xmxn(或2乘以m,连续的)表的一般化示例: 如果以投篮方式合并,则防守者越近,球员的投篮机会就越多。按投篮类型分组(实际上是与篮筐的距离),则发生的直观情况越多,则投篮越多,防守队员越远。 我认为此图像是辛普森(Simpson's)对更连续情况(防御者的距离)的概括。但是我仍然看不到回归线示例是Simpson的示例。

1
箱形图刻痕与Tukey-Kramer间隔
来自“ R”中箱形图的“缺口” 帮助文档(或原始文本)给出以下内容: 如果两个地块的凹口不重叠,这就是两个中间值不同的“有力证据”(Chambers等,1983,第62页)。有关使用的计算,请参见boxplot.stats。 并且“ boxplot.stats ”给出以下内容: 槽口(如果需要)扩展到+/- 1.58 IQR / sqrt(n)。这似乎是基于与McGill等人(1978年,第16页)中Chambers等人(1983,第62页)中1.57公式相同的计算。它们基于中位数的渐近正态性和所比较的两个中位数的大致相等的样本大小,并且据说对样本的基本分布不敏感。这个想法似乎是为两个中位数的差异给出大约95%的置信区间。 现在,我更加熟悉使用Tukey-Kramer测试的JMP版本比较列的平均值。 JMP文档提供了以下内容: 显示针对所有均值之间差异的测试。这是Tukey或Tukey-Kramer HSD(诚实的显着差异)测试。(Tukey 1953,Kramer 1956)。如果样本大小相同,则此测试为精确的alpha级测试;如果样本大小不同,则为保守测试(Hayter 1984)。 问题:两种方法之间的联系的本质是什么?有没有办法将一个变成另一个? 看起来有人正在寻找中位数的大约95%CI,然后确定是否存在重叠;另一个是“精确阿尔法测试”(我的样本大小相同),用于确定两组样本的中位数是否在彼此的合理范围内。 我参考了软件包,但是我对逻辑背后的数学感兴趣。

1
在R中的ARIMA时间序列中绘制预测值
这个问题可能有一个以上的严重误解,但这并不是要正确地进行计算,而是要着眼于某些重点来激发时间序列的学习。 在试图理解时间序列的应用时,似乎对数据进行去趋势化使得预测未来值变得难以置信。例如,gtemp来自astsa程序包的时间序列如下所示: 在绘制预测的未来值时,需要考虑过去几十年的上升趋势。 但是,为了评估时间序列的波动,需要将数据转换为固定的时间序列。如果我把它模型或差分(我想这是因为中间的进行了ARIMA过程1中order = c(-, 1, -))为: require(tseries); require(astsa) fit = arima(gtemp, order = c(4, 1, 1)) 然后尝试预测未来价值(年),我错过了上升趋势部分:505050 pred = predict(fit, n.ahead = 50) ts.plot(gtemp, pred$pred, lty = c(1,3), col=c(5,2)) 不必一定要对特定ARIMA参数进行实际优化, 如何恢复图的预测部分中的上升趋势? 我怀疑某个地方存在“隐藏”的OLS,这会导致这种不稳定吗? 我遇到了的概念drift,可以将其合并到包的Arima()功能中forecast,从而得出合理的图形: par(mfrow = c(1,2)) fit1 = Arima(gtemp, order = c(4,1,1), include.drift = T) future = forecast(fit1, …


1
PCA仅保留较大的成对距离是什么意思?
我目前正在阅读t-SNE可视化技术,有人提到使用主成分分析(PCA)来可视化高维数据的缺点之一是它仅保留了点之间的较大成对距离。在高维空间中相距较远的意义点在低维子空间中也将相距较远,但除此之外,所有其他成对距离都将被搞砸。 有人可以帮助我理解为什么会这样吗?它在图形上意味着什么?


3
“ R”中图聚类的方法和示例
我正在寻找使用'r'中的图集群对图中的节点进行分组/合并。 这是我的问题的一个惊人的玩具变化。 有两个“集群” 有一个“桥”连接集群 这是一个候选网络: 当我查看连接距离(“跳数”)时,如果可以的话,我可以得到以下矩阵: mymatrix &lt;- rbind( c(1,1,2,3,3,3,2,1,1,1), c(1,1,1,2,2,2,1,1,1,1), c(2,1,1,1,1,1,1,1,2,2), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,2,2), c(2,1,1,1,1,1,1,1,2,2), c(1,1,1,2,2,2,1,1,1,1), c(1,1,2,3,3,2,2,1,1,1), c(1,1,2,3,3,2,2,1,1,1)) 这里的想法: 幸运的是,或者由于玩具的简单性,矩阵具有明显的斑块(在(很大)矩阵中)就不会出现这种情况。如果我将点与行之间的关系随机化,那将不是那么干净。 我可能写错了-如果我有错字,请告诉我。 这里的跳数是连接第i行的点与第j列的点的最短跳数。自跳仍然是跳,因此对角线全为跳。 因此,在此矩阵中,较大的距离(跳跃数)具有较高的数字。如果我想要一个显示“连通性”而不是距离的矩阵,那么我可以做一个点逆,将矩阵的每个像元都替换为其乘性逆。 问题: 为了帮助我找到自己的方式: 通过组合它们来减少图上节点数的术语是什么?它是集群,合并,纠结吗?我应该使用什么词? 有哪些成熟的技术?是否有关于该主题的教科书?您可以指向论文或网站吗? 现在,我尝试首先看一下这里-这是一个不错的“首次检查”地点。我没有找到想要的东西。如果我错过了(不是不太可能),您能给我指出关于简历的一个或两个有关该主题的问题吗? 要带我去哪里: 是否有一个“ R”包可以正确群集网络上的节点? 您能指出我要执行此操作的示例代码吗? 是否有一个“ R”包可以图形化地显示缩小后的网络? 您能指出我要执行此操作的示例代码吗? 提前致谢。

2
如何可视化百分比以及条目数。
我正在尝试找出可视化下表的最佳方法,并强调与尝试该治疗的患者人数相对应的治疗效果。这是实际页面的链接:http : //curetogether.com/cluster-headaches/treatments/ 在强调疗效的同时,仍然可以轻松比较治疗方案并查看每例有多少患者的最佳方法是什么?我的想法是将有效性显示为百分比,但是我不确定如何使它们易于比较并显示尝试每种方法的患者人数。 谢谢!

3
当您有大量N,离散数据和许多变量时,如何从散点图矩阵中提取信息?
我正在研究乳腺癌数据集,并创建了所有属性的散点图,以了解哪个属性对预测(红色)的类别malignant(蓝色)影响最大benign。 我知道该行代表x轴,而列代表y轴,但是我看不到我可以对散点图中的数据或属性进行哪些观察。 我正在寻找一些帮助来解释/观察来自此散点图的数据,或者是否应该使用其他可视化来可视化此数据。 我用的R代码 link &lt;- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff" breast &lt;- read.arff(link) cols &lt;- character(nrow(breast)) cols[] &lt;- "black" cols[breast$class == 2] &lt;- "red" cols[breast$class == 4] &lt;- "blue" pairs(breast, col=cols)

1
可视化许多左偏分布
我要显示一系列左偏/重尾分布。有跨越三个因素42个分布(标示为A,B和C下文)。同样,差异也在整个因数间缩小B。 我的问题是,很难在结果的范围(比例或倍数变化)上区分分布: 记录数据似乎过分强调了左偏度,并将更多样本移到尾部(创建了多个离群点): 有人对其他可视化这些数据的技术有建议吗?

2
绘制平均值,标准差,最小值和最大值的汇总统计信息?
我来自经济学背景,通常在该学科中,变量的摘要统计信息记录在表格中。但是,我希望将它们绘制出来。 我可以修改箱形图以使其显示均值,标准差,最小值和最大值,但我不希望这样做,因为箱形图传统上用于显示中位数以及Q1和Q3。 我所有的变量都有不同的标度。如果有人可以提出一种有意义的方式来汇总这些摘要统计信息,那将是很好的。我可以使用R或Stata。

2
探索许多变量的散点图矩阵
我正在分析具有许多参数(例如50-200)的数据集,并且我对查看变量之间的关系感兴趣(例如,根据2变量散点图或2d直方图)。但是,对于这种数量的参数,绘制200x200的绘图阵列似乎是不可行的(除非我将其打印并挂在墙上)。 另一方面,仅执行相关矩阵并不能给出有关2变量关系的所有信息。 有没有一种方法(库或工作流)来探索许多变量的2变量关系? 我特别想向他人展示结果(也许经过一些数据预处理之后)。例如,在JavaScript中具有交互性的东西,可以看到相关矩阵中选定字段的散点图矩阵。 通过散点图矩阵,我的意思是这样的: (摘自pandasplotting博客;在Python / Pandas,R,D3.js等中可用)。

3
如何可视化贝叶斯拟合优度进行逻辑回归
对于贝叶斯逻辑回归问题,我创建了后验预测分布。我从预测分布中进行采样,对于每个观测值,我都会收到数千个(0,1)的采样。可视化拟合优度并不有趣,例如: 此图显示了1万个样本+观察到的基准点(左侧的一条可以画出一条红线:是的,是观察值)。问题在于该图很难提供信息,我将使用其中的23个,每个数据点一个。 是否有更好的方法可视化23个数据点以及后面的样本。 另一尝试: 基于纸张的另一种尝试这里

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.