Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)

1
多次插补后合并校准图
我想对多次插补后合并校准图/统计数据提出建议。在开发统计模型以预测未来事件的设置中(例如,使用医院记录中的数据预测医院出院后的存活或事件),人们可以想象有很多缺失的信息。多重插补是处理这种情况的一种方式,但是导致需要合并每个插补数据集的测试统计数据,并考虑到由于插补固有的不确定性而导致的其他可变性。 我知道有多个校准统计信息(hosmer-lemeshow,Harrell的Emax,估计的校准指数等),可能适用“常规” Rubin合并规则。 但是,这些统计信息通常是校准的总体度量,没有显示模型的特定未校准区域。因此,我宁愿看一下校准图。遗憾的是,我对如何“汇总”图表或背后的数据(每个人的预测概率和每个人的观察到的结果)一无所知,并且在生物医学文献(我熟悉的领域)中找不到很多东西,或在这里,在CrossValidated上。当然,查看每个插补数据集的标定图可能是一个答案,但是当创建许多插补集时(可能会很麻烦)。 因此,我想问一问是否存在可以在多次插补之后合并校准图的技术?

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

11
在图形上显示三条信息
注意:现在已附加50点原始数据。 我想显示我已经完成了多少研究,一周中完成了多少页,并按天细分,并且如下所示: 我曾有人告诉我他们不懂这些图,但是我不知道该如何显示它们。因为我本质上需要三个维度而无需进行累积描述。我要避免使用大量折线图,因为几周后这些图将变得难以辨认。我无能为力吗? 如何更清楚地显示这些内容? Date Total Total pages 21/11/2014 2.4166 0 22/11/2014 0 0 23/11/2014 1.5833 4 24/11/2014 3.0166 13 25/11/2014 2.4999 6 26/11/2014 1.4833 3 27/11/2014 3.0499 6 28/11/2014 0 0 29/11/2014 2.4499 5 30/11/2014 2.8833 2 1/12/2014 0 0 2/12/2014 4.1166 8 3/12/2014 1.3333 5 4/12/2014 1.2499 3 …

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
解读LASSO变量迹线图
我是该glmnet软件包的新手,但仍不确定如何解释结果。谁能帮助我阅读以下跟踪图? 通过运行以下命令获得该图: library(glmnet) return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ]) data <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), ncol=num.factors) model <- cv.glmnet(data, return, standardize=TRUE) op <- par(mfrow=c(1, 2)) plot(model$glmnet.fit, "norm", label=TRUE) plot(model$glmnet.fit, "lambda", label=TRUE) par(op)

1
可视化混合模型结果
我对混合模型经常遇到的问题之一是弄清楚数据可视化效果-可能会出现在纸或海报上的数据可视化效果-一旦获得结果即可。 现在,我正在研究一个Poisson混合效果模型,其公式如下所示: a <- glmer(counts ~ X + Y + Time + (Y + Time | Site) + offset(log(people)) 有了glm()中所装的东西,就可以轻松地使用predict()来获取新数据集的预测,并以此为基础进行构建。但是,使用这样的输出-您如何构建从X偏移(可能设置为Y)随时间变化的速率图?我认为仅凭固定效果估算值就可以很好地预测拟合度,但是95%CI呢? 还有其他人能想到的有助于可视化结果的东西吗?该模型的结果如下: Random effects: Groups Name Variance Std.Dev. Corr Site (Intercept) 5.3678e-01 0.7326513 time 2.4173e-05 0.0049167 0.250 Y 4.9378e-05 0.0070270 -0.911 0.172 Fixed effects: Estimate Std. Error z value Pr(>|z|) (Intercept) …

2
通过掷硬币来组合分类器
我正在学习机器学习课程,并且讲义幻灯片包含的信息与我推荐的书不符。 问题如下:存在三个分类器: 分类器A在较低的阈值范围内提供更好的性能, 分类器B在较高的阈值范围内提供更好的性能, 分类器C我们通过翻转p硬币并从两个分类器中进行选择来获得什么。 从ROC曲线上看,分类器C的性能如何? 演讲幻灯片指出,只需翻转硬币,我们就可以得到分类器A和B的ROC曲线的神奇“ 凸包 ”。 我不明白这一点。仅仅通过掷硬币,我们如何获得信息? 演讲幻灯片 这本书怎么说 推荐的书(《数据挖掘...》,作者:伊恩·H·威腾(Ian H. Witten),艾比·弗兰克(Eibe Frank)和马克·A。另一方面,)指出: 要看到这一点,请为方法A选择一个特定的概率临界值,分别给出真实的和错误的正比率tA和fA,为方法B选择另一个临界值,给出tB和fB。如果您以概率p和q随机使用这两种方案,其中p + q = 1,那么您将获得p的真假率。tA + q tB和p。fA + q fB。这表示位于连接点(tA,fA)和(tB,fB)的直线上的点,并且通过改变p和q可以找出这两个点之间的整条线。 以我的理解,这本书所说的是要真正获得信息并到达凸包,我们需要做的事情比简单地抛掷p硬币还要先进。 AFAIK,正确的方法(如书中所建议的)如下: 我们应该找到分类器A的最佳阈值Oa 我们应该找到分类器B的最佳阈值Ob 将C定义如下: 如果t <Oa,则将分类器A与t一起使用 如果t> Ob,则将分类器B与t一起使用 如果Oa <t <Ob,则用概率作为我们在Oa和Ob之间的线性组合,在带Oa的分类器A和带Ob的B之间进行选择。 它是否正确?如果是,则与幻灯片建议的内容有一些主要差异。 这不是简单的掷硬币,而是一种更高级的算法,该算法需要根据我们所处的区域手动定义点和拾取。 它永远不会使用阈值介于Oa和Ob之间的分类器A和B。 你能给我解释一下这个问题,什么是正确的理解方式,如果我的理解是不正确的? 如果我们像幻灯片所示那样简单地翻转p硬币,将会发生什么?我认为我们会得到一个介于A和B之间的ROC曲线,但是在给定的点上永远不会比更好的ROC曲线“更好”。 据我所知,我真的不理解幻灯片的正确性。左侧的概率计算对我来说没有意义。 更新: 找到了发明凸包方法的原始作者写的文章:http : //www.bmva.org/bmvc/1998/pdf/p082.pdf

3
使用R可视化损耗的最佳方法?
通过该站点,我最近发现了Sankey Diagrams,这是一种可视化传统流程图中发生的事情的好方法。 这里是一个热平衡图的一个很好的例子乔治·怀特塞兹和乔治·W·克拉布特里, 来源; 不要忘记能源,科学的长期基础研究 2007年2月9日:第一卷。315.没有 5813,第796-798页。 意识到没有Sankey R-package之后,我在网上找到了R脚本,但不幸的是,该脚本相当原始并且有些局限。寄予厚望的我在stackoverflow上要求使用Sankey R-package或更成熟的功能,但令我惊讶的是,由于我们没有在R中构建Sankey Diagrams的成熟功能。 在我发布赏金之后,Geek On Acid足够好,可以建议对现有脚本进行一些小小的改动,使其可以或多或少地用于我的特定目的。 改进的R脚本生成了该图, Source;stackoverflow.com。 但是,缺少R软件包是否表明Sankey Diagrams并不是一种在数据流中使用R可视化损耗的惊人方法,就像上图中所示的那样(请参阅初始stackoverflow问题以获取数据和R代码。也许有一种更好的可视化损耗的方法。 您认为使用R可视化数据流中损耗的最佳方法是什么?

1
如何使用ggplot绘制楼梯台阶功能?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我有这样的图: 用于生成它的R代码是: DF <- data.frame(date = as.Date(runif(100, 0, 800),origin="2005-01-01"), outcome = rbinom(100, 1, 0.1)) DF <- DF[order(DF$DateVariable),] #Sort by date DF$x <- seq(length=nrow(DF)) #Add case numbers (in order, since sorted) DF$y <- cumsum(DF$outcome) library(ggplot2) ggplot(DF, aes(x,y)) + geom_path() + #Ploting scale_y_continuous(name= "Number of failures") + scale_x_continuous(name= "Operations performed") 我想要这样的东西: …

4
如何改善对声誉对投票的影响的分析?
最近,我对声誉对投票的影响进行了一些分析(请参阅博客文章),随后我对可能更具启发性(或更合适)的分析和图表提出了一些问题。 所以有几个问题(可以随意回答任何人,而忽略其他人): 在当前的化身中,我并不是说要居中。我认为这样做是为了使散点图中出现负相关的错误外观,因为有更多的帖子发布到帖子数的较低端(您会在Jon Skeet面板中看到这种情况,仅在凡人用户中不会发生面板)。不以帖子的平均数为中心是否不合适(因为我的意思是以每位用户的平均分数为中心)? 从图中可以明显看出,分数高度偏右(并且平均居中没有任何改变)。在拟合回归线时,我同时拟合了线性模型和使用Huber-White砂纸的模型,该模型存在误差(通过rlmMASS R软件包提供),并且对斜率估计没有任何影响。我是否应该考虑对数据进行转换而不是进行稳健的回归?注意,任何转换都必须考虑0和负分数的可能性。还是应该使用其他类型的模型代替OLS来计数数据? 我相信一般而言,可以改进最后两个图形(并且也与改进的建模策略有关)。以我(厌倦的)观点,我怀疑声誉影响是否是真实的,它们会在海报的历史中很早就实现(我想如果是真的,这些可能会被重新考虑:“您给出了很好的答案,所以现在我将投票支持您所有的职位”而不是“以总分获得声誉”效果)。考虑到过度绘图,如何创建图形以证明这是否正确?我认为可能要证明这一点的一个好方法是适合表格的模型。 Y=β0+β1(X1)+α1(Z1)+α2(Z2)⋯αk(Zk)+γ1(Z1∗X1)⋯γk(Zk∗X1)+ϵY=β0+β1(X1)+α1(Z1)+α2(Z2)⋯αk(Zk)+γ1(Z1∗X1)⋯γk(Zk∗X1)+ϵY = \beta_0 + \beta_1(X_1) + \alpha_1(Z_1) + \alpha_2(Z_2) \cdots \alpha_k(Z_k) + \gamma_1(Z_1*X_1) \cdots \gamma_k(Z_k*X_1) + \epsilon 其中YYY是score - (mean score per user)(与当前散点图相同),X1X1X_1是post number,并且Z1⋯ZkZ1⋯ZkZ_1 \cdots Z_k是表示某个任意范围的帖子编号的虚拟变量(例如,如果帖子编号为,则Z1Z1Z_1等于Z如果帖子号为etc,则等于2。β 0和ε分别为隆重截距和误差项。然后,我会观察一下估计γ11 through 25Z2Z2Z_2126 through 50β0β0\beta_0ϵϵ\epsilonγγ\gamma确定是否在海报历史的早期(或以图形方式显示)声誉效应。这是合理(且适当)的方法吗? 像这样的散点图(例如黄土或样条线)适合使用某种类型的非参数平滑线,但是我对样条线的实验没有发现任何启发性的内容(在张贴者历史的早期,任何关于阳性效果的证据都是轻微而温和的)到我包含的样条线数量)。由于我有一个假设,即影响会在较早发生,因此我上面的建模方法是否比样条线更合理? 还要注意,尽管我已经疏通了所有这些数据,但是仍然有很多其他社区需要检查(还有一些类似的超级用户和serverfault可以借鉴类似的样本),因此在将来提出建议是很合理的我使用保留样本分析任何关系的分析。

2
在箱线图中显示平均值而不是中位数[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 4个月前关闭。 当使用python matplotblib绘制箱形图时,图中一半的线是分布的中位数。 是否有可能代替平均线。或者以其他样式将其绘制在其旁边。 另外,由于通常以中线为中位数,如果我将其设为平均值,会不会真的使我的读者感到困惑(当然,我会加注中间的线是什么)?

5
一种以图形方式显示大量数据的好方法
我正在从事一个涉及14个变量和345,000个房屋数据观测值的项目(例如建造年份,平方英尺,已售价格,居住县等)。我担心要尝试找到好的图形技术和包含好的绘图技术的R库。 我已经看到ggplot和lattice中的内容会很好地工作,并且我正在考虑为一些数字变量绘制小提琴图。 人们会建议使用哪些其他软件包来以清晰,简洁,最重要的是简洁的方式显示大量的数字或因子类型的变量?

8
“把手”图的替代图形
在我的研究领域中,一种流行的数据显示方式是将条形图与“把手”组合使用。例如, 根据作者的不同,“把手”在标准误差和标准偏差之间交替显示。通常,每个“条”的样本大小都非常小-大约六个。 这些图似乎在生物科学中特别受欢迎-例如,请参阅BMC Biology第3卷的前几篇论文。 那么,您将如何呈现这些数据? 为什么我不喜欢这些情节 我个人不喜欢这些情节。 当样本量较小时,为什么不显示单个数据点呢? 显示的是sd还是se?没有人同意使用哪种。 为什么要使用酒吧。数据通常不会从0开始,但是图表的第一遍显示确实如此。 图表无法说明数据的范围或样本大小。 R脚本 这是我用来生成绘图的R代码。这样,您可以(如果需要)使用相同的数据。 #Generate the data set.seed(1) names = c("A1", "A2", "A3", "B1", "B2", "B3", "C1", "C2", "C3") prevs = c(38, 37, 31, 31, 29, 26, 40, 32, 39) n=6; se = numeric(length(prevs)) for(i in 1:length(prevs)) se[i] = sd(rnorm(n, prevs, …

1
从多个线性模型直观呈现关系的最佳方法
我有一个带有约6个预测变量的线性模型,我将介绍估计值,F值,p值等。但是,我想知道哪种可视化图最好地代表单个预测变量对响应变量?散点图?条件图?效果图?等等?我将如何解释该情节? 我将在R中进行此操作,因此,如果可以的话,请随时提供示例。 编辑:我主要关心呈现任何给定的预测变量和响应变量之间的关系。

3
如何绘制聚类的数据输出?
我尝试对一组数据(一组标记)进行聚类,并得到2个聚类。我想用图形表示它。由于我没有(x,y)坐标,因此对表示有点困惑。 还要寻找这样做的MATLAB / Python函数。 编辑 我认为发布数据使问题更清晰。我有两个使用Python中的kmeans集群(不使用scipy)创建的集群。他们是 class 1: a=[3222403552.0, 3222493472.0, 3222491808.0, 3222489152.0, 3222413632.0, 3222394528.0, 3222414976.0, 3222522768.0, 3222403552.0, 3222498896.0, 3222541408.0, 3222403552.0, 3222402816.0, 3222588192.0, 3222403552.0, 3222410272.0, 3222394560.0, 3222402704.0, 3222298192.0, 3222409264.0, 3222414688.0, 3222522512.0, 3222404096.0, 3222486720.0, 3222403968.0, 3222486368.0, 3222376320.0, 3222522896.0, 3222403552.0, 3222374480.0, 3222491648.0, 3222543024.0, 3222376848.0, 3222403552.0, 3222591616.0, 3222376944.0, 3222325568.0, 3222488864.0, 3222548416.0, 3222424176.0, 3222415024.0, 3222403552.0, …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.