Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)

6
图论-分析和可视化
我不确定主题是否会引起CrossValidated兴趣。你会告诉我的。 我必须研究一个图(从图论)。我有一定数量的点相连。我有一张桌子,上面有所有的点,每个点都依赖于这些点。(我也有另一个表的含义) 我的问题是: 是否有一个好的软件(或R包)可以轻松学习? 有显示图的简单方法吗?

3
解释部分依赖图的y轴
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 5年前。 我已经阅读了有关局部依赖图的其他主题,其中大多数都是关于如何使用不同的程序包实际绘制它们,而不是如何准确地解释它们,所以: 我一直在阅读并创建大量的部分依赖图。我知道他们用我模型中所有其他变量(χc)的平均影响来衡量变量χs对函数ƒS(χS)的边际影响。较高的y值表示它们对准确预测我的课程有更大的影响。但是,我对这种定性解释不满意。 我的模型(随机森林)正在预测两个谨慎的类。“是的树”和“没有树”。TRI是一个变量,已被证明是一个很好的变量。 我开始认为Y值显示出正确分类的可能性。示例:y(0.2)表明TRI值>〜30时,有20%的机会正确识别True Positive分类。 相反地 y(-0.2)显示TRI值<〜15具有20%的机会正确识别真阴性分类。 文献中做出的一般解释听起来像是“大于TRI 30的值开始对模型中的分类产生积极影响”,仅此而已。对于可能潜在地谈论您的数据太多的情节来说,这听起来很模糊和毫无意义。 另外,我的所有图的y轴范围都在-1到1之间。我还看到了其他的-10至10等图。这是您要预测多少个类的函数吗? 我想知道是否有人可以解决这个问题。也许告诉我如何解释这些情节或一些可以帮助我的文献。也许我对此读得太远了? 我已经非常详尽地阅读了统计学习的要素:数据挖掘,推理和预测,这是一个很好的起点,但仅此而已。

1
t-SNE与MDS
最近一直在阅读有关t-SNE(t分布随机邻居嵌入)的一些问题,并且还访问了有关MDS(多维缩放)的一些问题。 它们通常以类似的方式使用,因此在这里将两个问题分开(或与PCA进行比较)时,将这个问题视为一个好主意。 简而言之,t-SNE和MDS有何不同?例如。他们探索了数据层次结构的哪些优点,不同的假设等。 收敛速度?内核的使用又如何呢?

8
您如何可视化3个类别变量之间的关系?
我有一个包含三个分类变量的数据集,我想在一张图中直观地显示所有三个变量之间的关系。有任何想法吗? 目前,我正在使用以下三个图形: 每张图都针对基线抑郁水平(轻度,中度,严重)。然后,在每个图表中,我查看治疗(0,1)与抑郁改善之间的关系(无,中等,严重)。 这3个图可以查看三向关系,但是有一种已知的方法可以处理一个图吗?

2
如何描述或可视化多元线性回归模型
我正在尝试使用几个输入参数(例如3)将多元线性回归模型拟合到我的数据中。 F(x )F(x )= A x1个+ B x2+ CX3+ d要么= (A B C )Ť(x1个 X2 X3)+d(i)(ii)(一世)F(X)=一种X1个+乙X2+CX3+d要么(ii)F(X)=(一种 乙 C)Ť(X1个 X2 X3)+d\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d \tag{ii} \end{align} 如何解释和可视化此模型?我可以想到以下选项: 提及描述的回归方程(系数,常数)以及标准偏差,然后提及残差图以显示该模型的准确性。 (我)(一世)(i) 独立变量和因变量的成对图,如下所示: 一旦系数已知,可以将用于获得方程式的数据点压缩为它们的实际值。也就是说,训练数据具有而不是,,,形式的新值,其中每个自变量乘以其各自的系数。然后,可以将此简化版本直观地显示为简单回归,如下所示:x …

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

14
易于强大的数据探索软件
在抵制电子表格混乱的尝试中,我经常宣扬福音,寻求更强大的工具,例如真正的统计软件(R,Stata等)。最近,有人断然地说他们根本不会学习编程,这使我对这种观点提出了挑战。我想为他们提供不需要编程的数据分析工具(但理想情况下,如果他们决定以后将脚趾浸入水中,则可以扩展到编程)。我可以推荐什么样的数据探索软件包?

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

7
箱图有哪些替代方案?
我正在创建一个网站,该网站显示用户选择的多边形的普查数据,并希望以图形方式显示各种参数的分布(每个参数一个图)。 数据通常具有以下属性: 样本数量往往很大(例如大约10,000个数据点) 值的范围往往要求较大(例如,最小人口可以小于100,最大人口可以是500,000) q1通常接近最小值(例如200),而q2和q3将在10,000以内 它看起来不像正态分布 我不是统计学家,因此我的描述可能不太清楚。 我想在图表上显示此分布,市民(外行,如果您愿意)可以看到该分布。 我本来希望使用直方图,但是由于值的范围很大,因此是不可能的,因为这使得制作垃圾箱并不是一件容易的事。 据我对统计的了解很少,通常使用箱形图来显示此类数据,但我认为对于外行而言,解密箱形图并不容易。 我有什么选择可以以一种易于理解的方式显示此数据?


1
箱形图的历史如何?“箱形和晶须”设计是如何演变的?
许多消息来源至今经典的“箱线图”的设计,以约翰杜克和他的“示意图表”的1970年的设计似乎从那时起已经保持相对静态的,爱德华·塔夫特的删节箱形图的版本没有流行开来,而小提琴图 -尽管盒式图的信息更丰富-仍然不那么受欢迎。克利夫兰关于胡须延伸至第10和第90个百分位数的建议有一些支持者,请参阅Cox(2009),但这不是常态。 哈德利·威克汉姆(Hadley Wickham)和丽莎·斯特里耶夫斯基(Lisa Stryjewski)撰写了关于盒式积木历史的未发表论文,但似乎没有涵盖盒式积木的历史先驱。 那么,当前无处不在的“盒子和胡须”情节是如何产生的呢?它从什么样的数据可视化发展而来,那些早期的设计是否具有显着的优势,为什么图基的方案在使用中似乎使它们显得如此全面?图示的答案将是一个加分法,但针对比Wickham和Stryjewski更深入的历史参考将是有用的。 参考文献 新泽西州考克斯(2009)。讲故事的状态:创建和改变箱形图。Stata Journal,9(3),478。 Wickham,H.和Stryjewski,L.(2011)。40年的箱线图。http://vita.had.co.nz/papers/boxplots.pdf

5
是否有用于流数据的t-SNE版本?
我对t-SNE和Barnes-Hut近似的理解是,需要所有数据点,以便可以同时计算所有力的相互作用,并且可以在2d(或更低维)图中调整每个点。 是否有任何版本的t-sne可以有效处理流数据?因此,如果我的观测一次到达一个观测,它将在2d地图上找到最佳位置以放置新观测,或者连续更新2d地图上的所有点以解决新观测。 这甚至有意义还是与t-sne的设置背道而驰?

1
如何在ggplot2中“躲避” geom_point的位置?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我在R中使用ggplot2进行如下绘制: 误差线相互重叠,看起来确实很乱。如何分隔不同索引的错误栏?我使用了position =“ dodge”,但似乎无法正常工作。这是我的代码的主要部分: plot = ggplot(data,aes(x=ntrunc,y=beta_best,group=ntrunc,colour=INDEX)) +geom_point(aes(shape=detectable),na.rm=TRUE,position="dodge") +geom_errorbar(aes(x=ntrunc,ymax=beta_high,ymin=beta_low),na.rm=TRUE,position="dodge")



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.