Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)

9
有谁知道有什么好的开源软件可以可视化数据库中的数据?
最近,我遇到了Tableau,试图将数据库和csv文件中的数据可视化。用户界面使用户能够可视化时间和空间数据并即时创建绘图。这样的工具非常有用,因为它可以以图形方式观察数据而无需编写代码。 由于必须从许多数据源中检索和可视化数据,因此拥有一个能够通过简单地在轴上拖动列来生成图表并通过拖动列名来修改可视化效果的工具将非常有用。 有人知道这种免费或开源软件吗?

17
您最喜欢的数据可视化博客是什么?
关于数据可视化的最佳博客是什么? 我将此问题作为社区Wiki,因为它具有很高的主观性。请将每个答案限制为一个链接。 请注意以下标准的建议答案: 对此类问题的[A]可接受的答案...需要提供足够的描述和合理的理由。仅仅超链接不能做到这一点。... [任何]将来的答复[必须]符合... [这些]标准;否则,它们将被删除而无需进一步评论。



7
两个序数变量之间的关系图
什么是合适的图来说明两个序数变量之间的关系? 我能想到的几种选择: 散点图,添加了随机抖动以使停止点彼此隐藏。显然是标准图形-Minitab将其称为“个体值图”。在我看来,这可能会产生误导,因为它在视觉上鼓励在序数级别之间进行线性插值,就好像数据来自间隔刻度。 调整散点图,以便点的大小(面积)代表级别组合的频率,而不是为每个采样单位绘制一个点。我偶尔在实践中看到过这样的情节。它们可能很难阅读,但是这些点位于规则排列的点阵上,这在一定程度上克服了对抖动分散图的批评,即它在视觉上“使数据间隔”。 特别是,如果将变量之一视为因变量,则按独立变量级别分组的箱形图。如果因变量的级别数不够高(非常“平坦”,缺少晶须或什至更糟的四分位数塌陷,使得无法通过视觉识别中位数),则可能看起来很糟糕,但是至少引起了人们对中位数和四分位数的关注序数变量的相关描述统计量。 带有热图以指示频率的单元格值表或空白网格。视觉上与散点图不同,但从概念上讲类似于散点图,点区域显示频率。 还有其他想法,或关于哪种情节更可取的想法?是否有某些研究领域将某些序数对纵坐标图视为标准?(我似乎还记得频率热图在基因组学中很普遍,但我怀疑频率相对于标称值与标称值更常见。)我也很希望从Agresti那里获得有关好的标准参考的建议。 如果有人想用图解来说明,则可以使用伪造样本数据的R代码。 “锻炼对您有多重要?” 1 =一点都不重要,2 =一点都不重要,3 =既不重要也不重要,4 =有点重要,5 =非常重要。 “您多长时间定期跑步10分钟或更长时间?” 1 =永不,2 =每两周少于一次,3 =每1或2周一次,4 =每周2或3次,5 =每周4次或更多。 如果将“经常”视为一个因变量而将“重要性”视为一个自变量是很自然的话,则可以用图来区分两者。 importance <- rep(1:5, times = c(30, 42, 75, 93, 60)) often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1 rep(1:5, times = c(10, …

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
如何确定图的y轴是否应从零开始?
一种“依靠数据说谎”的常见方法是使用y轴刻度,使看起来好像变化比实际变化更重要。 当我审阅科学出版物或学生的实验报告时,我常常对这种“数据可视化的罪过”感到沮丧(我相信作者无意间犯了这个错误,但仍然会引起误导。) 但是,“始终将y轴从零开始”并不是一成不变的规则。例如,爱德华·塔夫特(Edward Tufte)指出,在时间序列中,基线不一定为零: 通常,在时间序列中,使用显示数据而不是零点的基线。如果在绘制数据时出现零点,则很好。但是,不要花很多空的垂直空间试图降低到零点,而要隐藏数据线本身中发生的事情。(这本书“如何用统计说谎”在这一点上是错误的。) 例如,在整个时间序列中都没有零点的地方,可以看看任何主要的科学研究出版物。科学家们希望展示他们的数据,而不是零。 对数据进行上下文化的冲动是一个很好的冲动,但是上下文并不是来自空的垂直空间下降到零,这一数字甚至在很多数据集中都不会出现。相反,对于上下文,水平显示更多数据! 我想指出我撰写的论文中的误导性陈述,但我不想成为零Y轴纯粹主义者。 是否有任何准则可解决何时将y轴从零开始以及何时不必要和/或不合适的情况?(尤其是在学术工作中。)

10
如何正确绘制趋势
我正在创建一张图表,以显示不同国家的死亡率趋势(每1000人),应该从该图得出的故事是,德国(浅蓝色线)是唯一一个趋势在1932年之后呈上升趋势的国家。我的第一次(基本)尝试 我认为,该图已经显示了我们想要告诉我们的内容,但是它不是超级直观。您是否有任何建议可以使趋势之间的区别更加清晰?我当时在考虑绘制增长率,但我尝试了,但并没有更好。 数据如下 year de fr be nl den ch aut cz pl 1927 10.9 16.5 13 10.2 11.6 12.4 15 16 17.3 1928 11.2 16.4 12.8 9.6 11 12 14.5 15.1 16.4 1929 11.4 17.9 14.4 10.7 11.2 12.5 14.6 15.5 16.7 1930 10.4 15.6 12.8 9.1 10.8 11.6 …

6
您最喜欢的统计图是什么?
这是我的最爱 这个例子很幽默(贷记给我的前教授史蒂芬·戈特梅克),但我也对图表感到兴趣,您可以很好地捕捉和传达统计见解或方法,以及对它们的想法。 每个答案一个条目。当然,这个问题与您最喜欢的“数据分析”动画片是一样的。 请为您提供的任何图像提供适当的信誉/引用。

6
如何避免R图中的标签重叠?[关闭]
我正在尝试在R中标记一个非常简单的散点图。这是我使用的方法: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) 如您所见,结果是中等的(单击放大): 我尝试使用textxy函数来弥补这一点,但这并不是更好。对于密集的群集,使图像本身变大不起作用。 有什么功能或简便的方法可以弥补这一点,让R绘制不重叠的标签吗? 这是我拥有的一小部分数据: Name;SI;TI 01_BAD_talking_head;6.944714;4.421208 01_GOOD_talking_head;5.680141;4.864035 01_GOOD_talking_head_subtitles;7.170114;4.664205


8
如何在加权社交网络/图中进行社区检测?
我想知道是否有人可以建议对具有加权,无向边的图形执行社区检测/图形分区/聚类。所讨论的图形大约有300万个边,每个边都表示其连接的两个顶点之间的相似度。特别地,在该数据集中,边缘是个体,顶点是对其观察到的行为的相似性的度量。 过去,我遵循了一个建议,即在stats.stackexchange.com上到达这里,并使用igraph的纽曼模块化聚类的实现,并对结果感到满意,但这是在未加权的数据集上。 我应该看什么特定的算法?




By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.