Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)


3
实用的PCA数据教程
在Internet上搜索PCA教程可获得数千个结果(甚至是视频)。许多教程非常好。但是我找不到任何实际的示例,其中使用一些可用于演示的数据集来解释PCA。我需要一个教程,该教程提供一些易于绘制的小型数据集(而不是10000s的数据线和100s的尺寸),在PCA分析之前和之后,其差异/结果可以清楚地说明。(我认为一个逐步的实际示例非常有用,该示例中的数据大约有100条线和3维。 你有什么建议吗?

1
在R中的时间线上绘制事件
是否有R的图库,可以将开始和停止时间的数据帧转换为时间轴图,如下所示: Y轴的唯一含义是它与并发一起堆叠,但并不总是表示并发(请参见中间的间隙)。每个灰色框都是一个事件-数据框的一行。数据框将具有两列,开始时间和停止时间。

3
如何在R中制作华夫饼图?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 如何在R中使用饼图来绘制华夫饼图呢? help.search("waffle") No help files found with alias or concept or title matching ‘waffle’ using fuzzy matching. 我发现在Google上搜索得最近的是镶嵌图。

1
如何在python中绘制碎石图?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 去年关闭。 我在矩阵上使用奇异矢量分解,并获得了U,S和Vt矩阵。在这一点上,我试图为保留的维数选择一个阈值。有人建议我看一下碎石图,但想知道如何用numpy绘制它。目前,我正在使用python中的numpy和scipy库执行以下操作: U, S, Vt = svd(A) 有什么建议么?

1
统计人员会询问有关大肠杆菌爆发分析的哪些问题?
您可能听说过德国最近发生的肠出血性大肠杆菌 (EHEC) 。 统计员会问有关EHEC分析的哪些问题? 我想到的是记者/公职人员与非专家之间的问答环节,具有文凭/硕士学位但充其量只是统计数据的老师和工程师说。 (是图片,显示EHEC各种菌株的EHEC土地图以及各种测试的覆盖范围,可能吗?) 6月20日,星期一:我认为EHEC疫情将是全世界范围内真正重要的统计数据:各种原因的证据是什么,如何将这些信息传达给公众?因此,开始赏金。

2
以2D可视化多维数据(LSI)
我正在使用潜在语义索引来查找文档之间的相似性(谢谢,JMS!) 降维后,我尝试了k均值聚类将文档分组为聚类,效果很好。但是我想进一步介绍一下,并将文档可视化为一组节点,其中任意两个节点之间的距离与它们的相似度成反比(高度相似的节点靠在一起)。 令我惊讶的是,由于我的数据> 2维,因此我无法将相似度矩阵准确地简化为2维图。所以我的第一个问题是:是否有标准方法可以做到这一点? 我可以将数据缩小为二维,然后将它们绘制为X轴和Y轴,这对于一组约100-200个文档就足够了吗?如果这是解决方案,那么从一开始就将我的数据缩减为2维更好,还是有什么方法可以从我的多维数据中选择两个“最佳”维? 我正在使用Python和gensim库,如果有区别的话。

1
使用中位数和图形表示来报告错误吗?
我已经对论文数据进行了广泛的测试,从参数方差分析和t检验到非参数Kruskal-Wallis检验和Mann-Whitneys检验,以及经过秩转换的2向方差分析和带有二进制的GzLM,泊松和比例数据。现在,当我在结果中写下所有内容时,我需要报告所有内容。 我已经在这里问过如何报告比例数据的不对称置信区间。我知道标准偏差,标准误差或置信区间适用于均值,如果我的所有测试都很好地参数化,这就是我要报告的结果。但是,对于我的非参数测试,我应该报告中位数而不是平均值吗?如果是这样,我将报告什么错误? 与此相关的是如何最好地以图形方式显示非参数测试结果。由于我在类别中主要包含连续或间隔数据,因此通常使用条形图,条形图的顶部是平均值,误差条形图显示95%CI。对于NP测试,我是否仍可以使用条形图,但是条形的顶部代表中位数吗? 感谢您的建议!

2
如何绘制具有置信区间的交互图?
我的尝试: 我无法获得置信区间 interaction.plot() 另一方面plotmeans(),“ gplot”包不会显示两个图表。此外,我不能在两个plotmeans()图之间加上两个图,因为默认情况下轴是不同的。 我使用plotCI()了'gplot'包并叠加了两个图形,但取得了一些成功,但是轴的匹配并不完美。 关于如何制作具有置信区间的交互图的任何建议?通过一个函数,或有关如何叠加plotmeans()或plotCI()图形的建议。 代码样本 br=structure(list(tangle = c(140L, 50L, 40L, 140L, 90L, 70L, 110L, 150L, 150L, 110L, 110L, 50L, 90L, 140L, 110L, 50L, 60L, 40L, 40L, 130L, 120L, 140L, 70L, 50L, 140L, 120L, 130L, 50L, 40L, 80L, 140L, 100L, 60L, 70L, 50L, 60L, 60L, 130L, 40L, 130L, …

4
由于Y和X的相关性,如何在解释方差中表示增益?
我正在寻找如何(直观地)向大一学生解释简单的线性相关性。 可视化的经典方法是给出带有直线回归线的Y〜X散点图。 最近,我想到了通过向图添加3张图像来扩展此类图形的想法,剩下的是:y〜1,然后是y〜x,resid(y〜x)〜x,最后是散点图残差(y〜x)〜1(以平均值为中心) 这是这种可视化的示例: 和产生它的R代码: set.seed(345) x <- runif(50) * 10 y <- x +rnorm(50) layout(matrix(c(1,2,2,2,2,3 ,3,3,3,4), 1,10)) plot(y~rep(1, length(y)), axes = F, xlab = "", ylim = range(y)) points(1,mean(y), col = 2, pch = 19, cex = 2) plot(y~x, ylab = "", ) abline(lm(y~x), col = 2, lwd = …

2
快速评估(可视化)R中有序分类数据之间的相关性?
我在调查中寻找不同问题的答案之间的相关性(“嗯,让我们看看问题11的答案是否与问题78的答案相关”)。所有答案都是分类的(大多数答案的范围是从“非常不高兴”到“非常高兴”),但是有几个答案却有所不同。它们中的大多数都可以视为序数,因此让我们在这里考虑这种情况。 由于我无权使用商业统计程序,因此必须使用R。 我尝试了Rattle(R的一个免费软件数据挖掘程序包,非常漂亮),但是不幸的是它不支持分类数据。我可以使用的一种技巧是在R中导入具有数字(1..5)的调查的编码版本,而不是“非常不高兴” ...“高兴”,并让Rattle相信它们是数字数据。 我当时想做一个散点图,并且使点的大小与每对数字的数量成正比。经过一番谷歌搜索后,我发现http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/,但是(对我来说)这似乎很复杂。 我不是统计学家(而是程序员),但是对此事有一定的了解,如果我理解正确的话,Spearman的观点是合适的。 因此,对于那些急着想解决问题的人来说,这是一个简短的问题:是否有办法快速将Spearman的rho绘制在R中?图形比数字矩阵更可取,因为它更易于观察,也可以包含在材料中。 先感谢您。 PS我考虑了一段时间,是将其发布在主要的SO网站还是此处。在两个网站上搜索R相关性后,我觉得这个网站更适合这个问题。

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
如何解释缺口箱图
在进行一些EDA时,我决定使用箱形图来说明一个因子的两个水平之间的差异。 该方法ggplot呈现箱形图是令人满意的,但是稍微简单化(下图1图)。在研究箱形图的特性时,我开始尝试刻槽。 我知道,缺口在中位数附近显示CI,并且如果两个框的缺口不重叠,则有“有力的证据”(置信水平为95%)表明中位数有所不同。 在我的情况下(第二幅图),槽口没有有意义的重叠。但是,为什么盒子右侧的底部采用这种奇怪的形式呢? 在小提琴图中绘制相同的数据并不会表明相应小提琴的概率密度有任何异常。

3
累积/累积图(或“可视化洛伦兹曲线”)
我不知道这些图被称为什么,因此我给这个问题一个愚蠢的标题。 假设我有一个如下的有序数据集 4253 4262 4270 4383 4394 4476 4635 ... 每个数字对应于某个用户在网站上发布的帖子数量。我正在根据经验调查这里定义的“参与不平等”现象。 为了便于掌握,我想制作一个图表,使读者可以快速推断出诸如“ 10%的用户贡献50%的数据”之类的陈述。它看起来应该类似于这个公认的糟糕的油漆草图: 我不知道如何称呼它,因此我不知道在哪里寻找。另外,如果有人在中实现R,那将是非常棒的。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.