Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)

4
如何解释QQ情节
我正在使用一个小的数据集(21个观测值),并且在R中具有以下常规QQ图: 看到该图不支持正态性,我可以推断出基础分布如何?在我看来,更偏向右侧的分布会更合适,对吗?此外,我们还可以从数据中得出哪些其他结论?



1
解释plot.lm()
我有一个关于解释R中plot(lm)生成的图的问题。我想知道你们是否可以告诉我如何解释比例位置图和杠杆剩余图?任何意见,将不胜感激。假设掌握统计,回归和计量经济学的基础知识。

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
如何生成k均值聚类分析结果的漂亮图?
我正在使用R进行K均值聚类。我正在使用14个变量来运行K均值 有什么漂亮的方法可以绘制K均值的结果? 是否有任何现有的实现? 具有14个变量会使绘制结果复杂吗? 我发现了一个叫做GGcluster的东西,它看上去很酷,但仍在开发中。我也阅读了一些有关sammon映射的内容,但并不太了解。这将是个好选择吗?

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]


3
如何实际从randomForest :: getTree()绘制示例树?[关闭]
任何人都有关于如何从以下位置实际绘制几个示例树的库或代码建议: getTree(rfobj, k, labelVar=TRUE) (是的,我知道您不应该在操作上进行此操作,RF是一个黑匣子,依此类推。我想在视觉上检查树,以查看是否有任何违反直觉的变量,需要进行调整/组合/离散化/转换,检查我的编码因子的效果如何,等等) 先前的问题,没有合适的答案: 如何使随机森林更具解释性? 同时从随机森林中获取知识 我实际上想绘制一个样本树。所以,现在就不要与我争论。我不是在问varImpPlot(变量重要性图)或partialPlot或MDSPlot,或这些其他图,我已经知道了,但是它们不能代替查看示例树。是的,我可以目视检查的输出getTree(...,labelVar=TRUE)。 (我想plot.rf.tree()贡献将是非常受欢迎的。)


2
如何在ggplot2中更改图例的标题?[关闭]
我在ggplot2中绘制了一个图表,以汇总来自2 x 4 x 3单元格数据集的数据。我已经能够使用制作2级变量的面板,并使用facet_grid(. ~ Age)来设置x和y轴aes(x=4leveledVariable, y=DV)。aes(group=3leveledvariable, lty=3leveledvariable)到目前为止,我以前一直在制作情节。这给了我一个由2级变量覆盖的可视化效果,X轴代表4级变量,并且在面板上为3级变量绘制了不同的线。但是3级变量的键以3级变量的名称作为标题,我希望它成为一个具有字符空间的标题。如何重命名图例的标题? 我尝试过的东西似乎不起作用(abp我的ggplot2对象在哪里): abp <- abp + opts(legend.title="Town Name") abp <- abp + scale_fill_continuous("Town Name") abp <- abp + opts(group="Town Name") abp <- abp + opts(legend.title="Town Name") 示例数据: ex.data <- data.frame(DV=rnorm(2*4*3), V2=rep(1:2,each=4*3), V4=rep(1:4,each=3), V3=1:3)

3
对数刻度何时合适?
我已经读过,在某些情况下(例如时间序列图中的y轴),在作图/作图时使用对数刻度是合适的。但是,我无法找到关于为何如此或何时合适的明确解释。请记住,我不是统计学家,所以我可能会完全忘记这一点,如果是这种情况,我将感谢提供补救资源的方向。

12
从图形中抓取数据所需的软件
任何人都具有使用软件(最好是免费的,最好是开放源代码)的经验,该软件将拍摄在笛卡尔坐标上绘制的数据图像(标准的日常绘制),并提取图中绘制的点的坐标? 本质上,这是一个数据挖掘问题和一个反向数据可视化问题。


6
如何使用R中的ROC曲线确定最佳截止点及其置信区间?
我有一项测试数据,可用于区分正常细胞和肿瘤细胞。根据ROC曲线,此目的看起来不错(曲线下的面积为0.9): 我的问题是: 如何确定该测试的临界点及其置信区间,在该区间应该将读数判断为不明确? 可视化此最佳方法(使用ggplot2)是什么? 图是使用ROCR和ggplot2包呈现的: #install.packages("ggplot2","ROCR","verification") #if not installed yet library("ggplot2") library("ROCR") library("verification") d <-read.csv2("data.csv", sep=";") pred <- with(d,prediction(x,test)) perf <- performance(pred,"tpr", "fpr") auc <-performance(pred, measure = "auc")@y.values[[1]] rd <- data.frame(x=perf@x.values[[1]],y=perf@y.values[[1]]) p <- ggplot(rd,aes(x=x,y=y)) + geom_path(size=1) p <- p + geom_segment(aes(x=0,y=0,xend=1,yend=1),colour="black",linetype= 2) p <- p + geom_text(aes(x=1, y= 0, hjust=1, …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.