Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)


3
通过多项式回归了解置信带
我试图理解我在下面的图中看到的结果。通常,我倾向于使用Excel并获得线性回归线,但在以下情况下,我使用R并通过以下命令获得多项式回归: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() 所以我的问题可以归结为: 蓝色回归线周围的灰色区域(箭头1)是什么?这是多项式回归的标准偏差吗? 我可以说灰色区域(箭头2)外部的任何东西都是“离群值”,而灰色区域(箭头3)内部的所有东西都在标准偏差之内吗?

5
移除QQ图中心附近的多余点
我正在尝试在R中绘制一个带有两个约120万个点的数据集的QQ图(使用qqplot,并将数据输入到ggplot2中)。计算很容易,但是由于有很多点,因此生成的图形加载起来非常缓慢。我尝试了线性逼近以将点的数量减少到10000(无论如何,如果您的数据集之一大于另一个,这就是qqplot函数所做的事情),但是您会损失很多细节。 指向中心的大多数数据点基本上是无用的-它们重叠得太多,以致每个像素大概有100个。是否有任何简单的方法可以删除过于紧密的数据,而又不会使稀疏的数据流向尾部呢?

3
如何按比例绘制小提琴图以进行比较?
我正在尝试绘制小提琴图,并想知道是否存在公认的最佳实践,可以在各个组之间进行缩放。这是我使用R mtcars数据集尝试过的三个选项(1973年的Motor Trend Cars,在此处找到)。 等宽 似乎是原始纸张 *和R的vioplot作用(示例)。适合比较形状。 均等面积 由于每个图都是概率图,因此感觉不错,因此在某个坐标空间中每个图的面积应等于1.0。适用于比较每个组中的密度,但如果将图重叠,则似乎更合适。 加权面积 面积相等,但按观察次数加权。6缸变得相对稀薄,因为这些汽车较少。适用于比较各组的密度。 *小提琴图:箱形图-密度踪迹协同效应(DOI:10.2307 / 2685478)

3
将两个直方图按相同比例放置的最佳方法?
假设我有两个分布要详细比较,即以使形状,比例和偏移容易看到的方式比较。做到这一点的一种好方法是绘制每个分布的直方图,将它们放在相同的X比例尺上,然后在另一个下方堆叠。 执行此操作时,应如何进行装箱?即使一个分布比另一个分布更分散,两个直方图是否也应使用​​相同的bin边界,如下面的图像1所示?是否应在缩放之前针对每个直方图分别进行合并,如下面的图像2所示?在这方面是否有很好的经验法则?

4
学习使用(/创建)动态(/交互式)统计可视化资源
我想了解更多有关交互式数据可视化的知识(缩放,指向,笔刷,点映射等)。我欢迎任何人: 有关如何使用这种方法进行统计探索的教程/指南/书(?)/视频。 良好/有趣的交互式data-viz包(在R中和外部)的指针 刚开始滚动时,我知道R中有多种获得交互式可视化的方法,例如rggobi,新的googleViz R程序包,动画程序包等。但是,如果还有其他值得探索的软件包(提供R所没有的东西),我将很高兴了解它们(例如jmp,mathlab,spss,sas,excel等)。 ps:这是使用标签“交互式可视化”的第一个问题

1
如何使年龄金字塔像R中的情节?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 年龄金字塔看起来像这样: 我想做类似的事情,即2个具有相同类别的条形图(不是直方图),它们像金字塔一样垂直旋转并向两侧延伸。 这是在R中执行此操作的简单方法吗? 控制每个条形的颜色也是很好的。

4
后续行动:在ANOVA图表之间的混合内,估计的SE或实际的SE?
我目前正在整理一篇论文,从昨天开始偶然发现了这个问题,这使我向自己提出了同样的问题。更好地为我的图表提供来自数据的实际标准误差还是由ANOVA估算的误差? 由于昨天的问题相当具体,我的问题相当具体,我认为提出这个后续问题是适当的。 详细信息: 我已经在某个认知心理学领域(条件推理)中进行了一项实验,将两组(归纳和演绎指令,即受试者之间的操作)与两个受试者内部的操作(问题的类型和问题的内容)进行了比较。两个因素水平)。 结果看起来像这样(左侧面板显示的是ANOVA输出的SE值,右侧面板显示的是根据数据估算的SEs): 请注意,不同的行代表两个不同的组(即,对象间操作),而内部在x轴(即2x2因子水平)上绘制受试者操作。 在本文中,我提供了方差分析的相应结果,甚至提供了中间关键交叉交互的计划比较。SE在那里为读者提供了有关数据可变性的一些提示。我更倾向于使用SE,而不是标准偏差和置信区间,因为绘制SD并不常见,并且在比较对象之间和对象之间的CI时存在严重问题(因为肯定适用于SE,错误地推断出显着差异的情况并不常见从他们)。 重复我的问题:绘制从ANOVA估计的SE是更好还是我应该绘制从原始数据估计的SE? 更新: 我认为我应该对SE的估算值更加清楚。SPSS中的ANOVA输出为我estimated marginal means提供了相应的SE和CI。这是在左图中绘制的内容。据我了解,它们应该是残差的标准差。但是,当保存残差时,它们的SD不会以某种方式接近估计的SE。因此,一个次要的(可能是特定于SPSS的问题)将是:这些SE是 什么? 更新2:我终于设法编写了一个R函数,该函数应该能够像我最终喜欢的那样自行绘制(请参见我接受的答案)。如果有人有时间,如果您可以看一下,我将不胜感激。这里是。

9
用于集群的可视化软件
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我想聚集〜22000点。许多聚类算法可以在较高质量的初始猜测下更好地工作。有哪些工具可以使我对数据的大致形状有所了解? 我确实希望能够选择自己的距离度量标准,因此我可以输入成对距离列表的程序就可以了。我希望能够做一些事情,例如在显示器上突出显示一个区域或群集,并获得该区域中哪些数据点的列表。 首选自由软件,但我已经拥有SAS和MATLAB。


1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

1
GAM vs LOESS vs花键
语境:我想提请在不出现参数散点图一条线,所以我使用geom_smooth()的ggplot中R。它会自动返回geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.我收集的GAM代表广义加性模型,并使用三次样条曲线。 以下看法正确吗? 黄土以特定值估算响应。 样条曲线是连接适合数据的不同分段函数(构成广义加性模型)的近似值,三次样条曲线是此处使用的特定样条曲线类型。 最后,何时应使用花键,何时应使用LOESS?


4
箱形图提供的直方图没有提供哪些信息?
直方图可以很好地理解变量的分布。箱形图试图做同样的事情,但是,并不能很好地说明这个变量的分布情况。 我不明白为什么人们使用箱形图。直方图在各个方面都更好。我有理由同时使用它们吗? 我认为箱形图提供的唯一内容是:离群值!它告诉我们哪些观测值可能是异常值。

4
绘制小样本
我有一个单独的14次小数据集来完成一项任务。但是,我很难找到合适的图形来绘制数据。如果样本较大,我将使用箱形图或直方图,但是如果样本如此小,我不确定在这种情况下是否适合使用。 更新:时间是5.2、3.9、5.6、4.2、3.8、4.1、6.0、5.6、4.4、4.5、4.9、4.5、4.9、4.2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.