Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)

1
可视化连续比例
我正在尝试可视化一些消费者数据,该数据有4个类别。用户可以自由在不同类别之间切换。我想将每个人的最后三个或四个开关可视化。 因此,我们将从具有4个堆叠比例的列的图开始。在那之后,我们将有16个类别,每个类别细分为上次人们所做的事情,然后是64个,依此类推,直到垃圾箱变得太小而无法使用。 我认为在marimekko图表和堆积的条形图或树状图之间的某个位置应该起作用,但我什至不知道该怎么称呼! 如果有人可以帮助我解决我应该使用的绘图类型,并且,如果您想变得更好,那么如何在R中实现它,我将非常感激。

4
缩放不同数量级的数据以进行绘图
查看以下数据集: Date Visits Carts carts Orders Created converted Created 2011-11-11 12277 161 9 36 2011-11-12 11871 93 5 19 2011-11-13 13072 107 8 8 2011-11-14 13594 112 4 34 2011-11-15 12741 129 8 43 2011-11-16 15491 261 16 57 2011-11-17 13418 186 17 42 我被要求将其绘制在图形上,因为Date具有X轴,其余数据位于Y轴上。问题在于数据规模大不相同。造访数以千计,创建的订单数以低数计,数据在图表上的绘制效果不佳。 我想知道统计学家在这种情况下会做什么,我可以将“访问次数”除以1000,然后放入描述中(访问数(K)),但是随后我对创建的购物车也遇到了同样的问题,因为数以百计,其他一切都在低数。 在这种情况下做什么工作?

7
用于数据可视化示例,教学和研究的数据集
我正在搜索可用于测试正在研究的多种datavis技术的现有数据集。 我知道一些资源,例如R中包含的资源(请尝试plot(Orange)或在此处查看)。 但我想向前迈出一步: 哪些是测试可视化工具的最佳现实数据集? 您在有关datavis的学术论文或教学幻灯片中使用了哪些数据集? 在现实世界中,哪一个是最好的例子来展示制图的优势?

3
发现数据新知识的准则
我策划一些事情来指出自己或其他人。通常,一个问题开始这个过程,并且经常有人问一个特定答案的希望。 如何以较少偏见的方式学习有关数据的有趣事情? 现在,我大致遵循此方法: 摘要统计。 带状图。 散点图。 也许重复一个有趣的数据子集。 但这似乎还不够系统或科学。 是否有可遵循的准则或程序来揭示我不想问的有关数据的信息?我怎么知道做完足够的分析之后?

4
什么是标准误差?
我正在使用找到的教程,并绘制平均值和标准误差以显示数据。但是我在讨论结果时遇到了问题。我的图如下所示:一些标准误差(显示为误差线)变化很大,其中一些非常接近零。

6
一天中事物图表的好通用名称是什么?
我们正在创建一个图表,显示给定时间段内每天的流量。因此,y轴是流量,x轴是午夜,凌晨1点,凌晨2点等。也可能是一周中的几天。这种图表的通用名称是什么?我想出了“周期图”。这是标准吗?有一个吗? 更新: 为了更加清楚起见,顶部图表中显示的不是一天,而是许多天的汇总。例如,在过去的一个月中,上午6点平均比中午低。同样,在去年的底部图表中,周六的流量有所下降。

7
如何使用R计算400万边缘网络中的集中度度量?
我有一个CSV文件,该文件有400万条有向网络的边缘,代表着彼此通信的人(例如,约翰向玛丽发送消息,玛丽向安发送消息,约翰向玛丽发送另一条消息,等等)。我想做两件事: 查找每个人的度数,本位之间和(也许)本征中心度度量。 获得网络的可视化。 我想在Linux服务器上的命令行上执行此操作,因为我的笔记本电脑没有很多功能。我在该服务器和statnet库上安装了R。我在2009年的这个职位发现某人比我更有能力尝试做同样的事情,并且遇到问题。因此,我想知道是否还有其他人对如何执行此操作有任何建议,最好带我一步一步,因为我只知道如何加载CSV文件,而别无其他。 为了给您一个想法,这是我的CSV文件的外观: $ head comments.csv "src","dest" "6493","139" "406705","369798" $ wc -l comments.csv 4210369 comments.csv

2
R:动态更新图表
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 8个月前关闭。 这是一个数据可视化问题。我有一个数据库,其中包含一些不断修改的数据(在线更新)。R中每隔5或10秒更新图表的最佳方法是什么?(无需再次绘制所有内容就可以了)? 红

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

10
您如何绘制结构方程/ MPLUS模型?
我正在寻找一种软件工具(最好是开源的)来高效,简洁地绘制结构方程/混合物模型。 在研究了xfig和graphviz之后,我现在坚持使用通用的矢量图形程序包inkscape,因为它似乎最灵活。 我想调查stat.stackexchange社区:您如何绘制结构方程/混合物模型?你用什么软件?


2
如何在R中垂直堆叠具有相同x比例但不同y比例的两个图?
问候, 目前,我正在R中执行以下操作: require(zoo) data <- read.csv(file="summary.csv",sep=",",head=TRUE) cum = zoo(data$dcomp, as.Date(data$date)) data = zoo(data$compressed, as.Date(data$date)) data <- aggregate(data, identity, tail, 1) cum <- aggregate(cum, identity, sum, 1) days = seq(start(data), end(data), "day") data2 = na.locf(merge(data, zoo(,days))) plot(data2,xlab='',ylab='compressed bytes',col=rgb(0.18,0.34,0.55)) lines(cum,type="h",col=rgb(0,0.5,0)) summary.csv的片段: date,revision,file,lines,nclass,nattr,nrel,bytes,compressed,diff,dcomp 2007-07-25,16,model.xml,96,11,22,5,4035,991,0,0 2007-07-27,17,model.xml,115,16,26,6,4740,1056,53,777 2007-08-09,18,model.xml,106,16,26,7,4966,1136,47,761 2007-08-10,19,model.xml,106,16,26,7,4968,1150,4,202 2007-09-06,81,model.xml,111,16,26,7,5110,1167,13,258 ... 最后两行绘制了我需要的信息,其结果类似于以下内容: 蓝线是我感兴趣的工件的熵(以字节为单位)。绿线代表变化的熵。 现在,在此图中,它的效果很好,因为比例没有太大差异。但是我还有其他图表,其中的绿线变得很小,一个人看不到。 我正在寻找的解决方案涉及两件事: …

2
可视化多个“直方图”(条形图)
我很难选择正确的方式来可视化数据。假设我们有一家书店出售书籍,每本书至少都有一个类别。 对于书店,如果我们计算书籍的所有类别,我们将获得一个直方图,该直方图显示属于该书店特定类别的书籍数量。 我想形象化书店的行为,我想看看他们是否喜欢某个类别而不是其他类别。我不想看看他们是否一起都喜欢科幻小说,但我想看看他们是否平等地对待每个类别。 我有约100万家书店。 我想到了4种方法: 采样数据,仅显示500家书店的直方图。使用10x10网格在5个单独的页面中显示它们。4x4网格的示例: 与#1相同。但是这次根据它们的计数desc对x轴值进行排序,因此如果有帮助,就很容易看到。 想象一下将#2中的直方图像一个甲板一样放在一起并以3D形式显示它们。像这样: 代替使用第三轴使用颜色来表示颜色,而是使用热图(2D直方图): 如果通常书店偏爱某些类别而不是其他类别,它将以从左到右的漂亮渐变显示。 您还有其他表示多个直方图的可视化想法/工具吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.