Questions tagged «scatterplot»

成对的(x,y)值绘制为笛卡尔坐标中的点。广泛用作探索和诊断工具。

7
两个序数变量之间的关系图
什么是合适的图来说明两个序数变量之间的关系? 我能想到的几种选择: 散点图,添加了随机抖动以使停止点彼此隐藏。显然是标准图形-Minitab将其称为“个体值图”。在我看来,这可能会产生误导,因为它在视觉上鼓励在序数级别之间进行线性插值,就好像数据来自间隔刻度。 调整散点图,以便点的大小(面积)代表级别组合的频率,而不是为每个采样单位绘制一个点。我偶尔在实践中看到过这样的情节。它们可能很难阅读,但是这些点位于规则排列的点阵上,这在一定程度上克服了对抖动分散图的批评,即它在视觉上“使数据间隔”。 特别是,如果将变量之一视为因变量,则按独立变量级别分组的箱形图。如果因变量的级别数不够高(非常“平坦”,缺少晶须或什至更糟的四分位数塌陷,使得无法通过视觉识别中位数),则可能看起来很糟糕,但是至少引起了人们对中位数和四分位数的关注序数变量的相关描述统计量。 带有热图以指示频率的单元格值表或空白网格。视觉上与散点图不同,但从概念上讲类似于散点图,点区域显示频率。 还有其他想法,或关于哪种情节更可取的想法?是否有某些研究领域将某些序数对纵坐标图视为标准?(我似乎还记得频率热图在基因组学中很普遍,但我怀疑频率相对于标称值与标称值更常见。)我也很希望从Agresti那里获得有关好的标准参考的建议。 如果有人想用图解来说明,则可以使用伪造样本数据的R代码。 “锻炼对您有多重要?” 1 =一点都不重要,2 =一点都不重要,3 =既不重要也不重要,4 =有点重要,5 =非常重要。 “您多长时间定期跑步10分钟或更长时间?” 1 =永不,2 =每两周少于一次,3 =每1或2周一次,4 =每周2或3次,5 =每周4次或更多。 如果将“经常”视为一个因变量而将“重要性”视为一个自变量是很自然的话,则可以用图来区分两者。 importance <- rep(1:5, times = c(30, 42, 75, 93, 60)) often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1 rep(1:5, times = c(10, …

6
如何避免R图中的标签重叠?[关闭]
我正在尝试在R中标记一个非常简单的散点图。这是我使用的方法: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) 如您所见,结果是中等的(单击放大): 我尝试使用textxy函数来弥补这一点,但这并不是更好。对于密集的群集,使图像本身变大不起作用。 有什么功能或简便的方法可以弥补这一点,让R绘制不重叠的标签吗? 这是我拥有的一小部分数据: Name;SI;TI 01_BAD_talking_head;6.944714;4.421208 01_GOOD_talking_head;5.680141;4.864035 01_GOOD_talking_head_subtitles;7.170114;4.664205

9
在此图中,
下图中和之间的关系是什么?在我看来,存在负线性关系,但是由于我们有很多异常值,因此该关系非常弱。我对吗?我想学习如何解释散点图。XYYYXXX

3
如何在ggplot2中的散点图区域周围绘制整洁的多边形
如何在散点图上的一组点周围添加整洁的多边形?我正在使用ggplot2,但对的结果感到失望geom_polygon。 数据集在该处,作为制表符分隔的文本文件。下图显示了一些国家/地区对健康和失业态度的两种衡量标准: 我想从geom_density2d花哨的少,但从经验上更正确geom_polygon。未排序数据的结果无济于事: 如何在最小-最大yx值周围绘制充当轮廓路径的“整洁”多边形?我尝试对数据进行排序无济于事。 码: print(fig2 <- ggplot(d, aes(man, eff, colour=issue, fill=issue)) + geom_point() + geom_density2d(alpha=.5) + labs(x = "Efficiency", y = "Mandate")) 该d目的是通过获得该CSV文件。 解: 感谢Wayne,Andy W和其他人的指导!数据,代码和图形已发布到GitHub上。结果看起来像这样:

3
使用R制作通过处理分离数据的散点图的好方法是什么?
一般而言,我对R和统计资料非常陌生,但我需要做一个散点图,我认为这可能超出了它的本机能力。 我有几个观测向量,我想用它们作一个散点图,每对都属于三类之一。我想创建一个散点图,以颜色或符号将每个类别分开。我认为这比生成三个不同的散点图更好。 我的另一个问题是,在每个类别中,一个点上都有大的群集,但是一组中的群集比其他两组中的群集大。 有人知道这样做的好方法吗?我应该安装软件包并学习如何使用?有人做过类似的事情吗? 谢谢

2
具有轮廓/热量叠加的散点图
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我在最近的一篇论文的增刊中看到了该图,我很希望能够使用R复制它。这是一个散点图,但是要解决过度绘制问题,可以使用等高线将其“加热”为蓝色到红色,对应于过度绘图密度。我该怎么做?

2
良好的在线资源,其中包含有关在各种条件下绘制两个数值变量之间关系的图形的提示
内容: 一段时间以来,我获得了一系列启发式方法,可以有效地绘制两个数字变量之间的关联。我想大多数处理数据的人都会有一套相似的规则。 此类规则的示例可能是: 如果变量之一正偏,请考虑在对数刻度上绘制该轴。 如果数据点很多(例如n> 1000),则采用其他策略,例如使用某种形式的部分透明性或对数据进行采样; 如果变量之一属于有限数量的离散类别,请考虑使用抖动或向日葵图; 如果存在三个或更多变量,请考虑使用散点图矩阵; 拟合某种形式的趋势线通常很有用; 将绘图字符的大小调整为样本大小(对于较大的n,使用较小的绘图字符); 等等。 题: 我希望能够引导学生访问一个网页或网站,该网站或网站解释了这些技巧和其他技巧,以有效地绘制两个数值变量之间的关联(也许带有示例)。 互联网上有没有做得很好的页面或站点?

2
添加的变量图(部分回归图)在多元回归中有什么解释?
我有一个电影数据集模型,并使用了回归: model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) library(ggplot2) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) 给出了输出: 现在,我第一次尝试使用名为“添加的变量图”的方法,得到以下输出: car::avPlots(model, id.n=2, id.cex=0.7) 问题是我试图使用google理解添加的变量图,但是我无法理解它的深度,看到该图我理解了它基于与输出相关的每个输入变量的偏斜表示。 我能否获得更多细节,例如其如何证明数据规范化?

1
广义线性模型的假设
我制作了一个具有单个响应变量(连续/正态分布)和4个解释变量(其中3个是因子,第四个是整数)的广义线性模型。我使用了具有身份链接功能的高斯误差分布。我目前正在检查模型是否满足广义线性模型的假设,即: Y的独立性 正确的链接功能 解释变量的正确计量范围 没有影响力的观察 我的问题是:如何检查模型是否满足这些假设?最好的起点似乎是针对每个解释变量绘制响应变量。但是,有3个解释变量是分类的(具有1-4个级别),那么在图中我应该寻找什么? 另外,我是否需要检查解释变量之间的多重共线性和相互作用?如果是,我该如何使用分类解释变量?



3
如何讨论多条新兴线的散布图?
我们已经测量了两个变量,散点图似乎暗示了多个“线性”模型。有没有办法尝试提炼那些模型?事实证明,确定其他自变量是困难的。 这两个变量都向左偏斜(偏小),这是我们域中的预期分布。点的强度表示此处的数据点数量(以比例)。 &lt; x ,y &gt;日志10log10\log_{10}&lt; x ,y&gt;&lt;x,y&gt; 或者,是否有办法将这些点聚类? 在我们的领域中,声称这两个变量线性相关。我们正在尝试了解/解释为什么我们的数据不是这种情况。 (注意,我们有1700万个数据点) 更新:感谢您提供所有答案,以下是一些要求的说明: 这两个变量都是整数,这解释了对数散点图中的某些模式。 幸运的是,根据定义,两个变量的最小值均为1。 7M点位于(由数据的左偏度“解释”)&lt; 3 ,1 &gt;&lt;3,1&gt;<3,1> 以下是要求的地块: log-log散点图: (空格由整数值引起) 对数对数极坐标: θ = yθ=y\theta = y 比例直方图: 频率以对数刻度表示,因为条为7M点,并且会隐藏其他条。1 / 31/31/3

1
使用ggplot或ellipse软件包绘制95%CI椭圆时获得不同的结果
我想protoclust{protoclust}通过为用于对我的数据进行分类的每对变量创建散点图,按类着色以及为每个类的95%置信区间重叠椭圆来可视化聚类的结果(用生成),以对每个类进行重叠(以检查椭圆类在每对变量下重叠)。 我已经以两种不同的方式实现了椭圆的绘制,并且生成的椭圆也不同!(第一个实现使用更大的椭圆!)先验的只是它们的大小不同(有些不同的缩放比例?),因为轴的中心和角度在两者上似乎是相似的。我想我一定是通过使用其中之一(不要同时使用两者!)或参数来做错事。 谁能告诉我我在做什么错? 这里是两个实现的代码;两者均基于“ 如何将数据椭圆叠加到ggplot2散点图上”的答案? ### 1st implementation ### using ellipse{ellipse} library(ellipse) library(ggplot2) library(RColorBrewer) colorpal &lt;- brewer.pal(10, "Paired") x &lt;- data$x y &lt;- data$y group &lt;- data$group df &lt;- data.frame(x=x, y=y, group=factor(group)) df_ell &lt;- data.frame() for(g in levels(df$group)){df_ell &lt;- rbind(df_ell, cbind(as.data.frame(with(df[df$group==g,], ellipse(cor(x, y),scale=c(sd(x),sd(y)),centre=c(mean(x),mean(y))))),group=g))} p1 &lt;- ggplot(data=df, aes(x=x, y=y,colour=group)) + geom_point() …

3
当您有大量N,离散数据和许多变量时,如何从散点图矩阵中提取信息?
我正在研究乳腺癌数据集,并创建了所有属性的散点图,以了解哪个属性对预测(红色)的类别malignant(蓝色)影响最大benign。 我知道该行代表x轴,而列代表y轴,但是我看不到我可以对散点图中的数据或属性进行哪些观察。 我正在寻找一些帮助来解释/观察来自此散点图的数据,或者是否应该使用其他可视化来可视化此数据。 我用的R代码 link &lt;- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff" breast &lt;- read.arff(link) cols &lt;- character(nrow(breast)) cols[] &lt;- "black" cols[breast$class == 2] &lt;- "red" cols[breast$class == 4] &lt;- "blue" pairs(breast, col=cols)

2
探索许多变量的散点图矩阵
我正在分析具有许多参数(例如50-200)的数据集,并且我对查看变量之间的关系感兴趣(例如,根据2变量散点图或2d直方图)。但是,对于这种数量的参数,绘制200x200的绘图阵列似乎是不可行的(除非我将其打印并挂在墙上)。 另一方面,仅执行相关矩阵并不能给出有关2变量关系的所有信息。 有没有一种方法(库或工作流)来探索许多变量的2变量关系? 我特别想向他人展示结果(也许经过一些数据预处理之后)。例如,在JavaScript中具有交互性的东西,可以看到相关矩阵中选定字段的散点图矩阵。 通过散点图矩阵,我的意思是这样的: (摘自pandasplotting博客;在Python / Pandas,R,D3.js等中可用)。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.