可视化离散变量和连续变量之间的关系的最佳方法是什么?


19

显示以下两者之间的关系的最佳方法是:

  • 连续变量和离散变量
  • 两个离散变量?

到目前为止,我已经使用散点图研究了连续变量之间的关系。但是,在离散变量的情况下,数据点将以一定间隔进行累积。因此,最佳拟合线可能会产生偏差。


4
对于离散离散的情况,此问题的解答(在您的案例中可能没有方框)可能有助于解决此处的一些相关问题,即绘制有序的分类数据。我真的不确定您如何看待这种“偏见”的产生;它会影响数据点的视觉效果(导致使用预期线会超出应有的位置),但不会影响实际数据本身。你能在这里解释你的理由吗?
Glen_b-恢复莫妮卡

Answers:


26

下图:原始图可能会产生误导,因为变量的离散性质使点重叠:

在此处输入图片说明

解决该问题的一种方法是为数据符号引入一些透明度:

在此处输入图片说明

另一种方法是稍微移动符号的位置以产生拖尾。这种技术称为“抖动”:

在此处输入图片说明

两种解决方案仍将允许您拟合直线以评估线性。

R代码供您参考:

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)

1
好答案。带有可变实例计数的气泡散点图怎么样?我尝试在海量数据集上使用这些技术,并且渲染alpha都花费了太长时间。
2013年

14

我将使用箱线图显示离散变量和连续变量之间的关系。您可以使用标准统计软件使箱形图垂直或水平放置,因此很容易将其可视化为IV或DV。它可以使用的散点图具有离散和连续变量,只是一个数字分配给离散变量(例如,1和2),和抖动的那些值(注顶部情节上右这里)。

关于您认为最合适的产品线可能有偏见的评论,这取决于您拥有什么。例如,如果您有一个离散变量,其IV为两个级别,而一个连续变量为DV,则可以通过这两种方法画一条线,这不会有偏差。(我们通常认为这种情况适合进行t检验,但实际上它是一种回归形式,即简单的情况,请参见此处的答案。)另一方面,如果您有离散的变量以DV作为两个级别,标准(OLS)回归将是不合适的(需要进行逻辑回归),并且最佳拟合线会出现偏差,但是您可以拟合(并绘制)最低的线作为初始变量的一部分数据探索。

为了可视化两个离散变量之间的关系,我将使用镶嵌图。您还可以在某些程序中使用sieve图关联图动态压力图


8

考虑二进制结果变量和连续预测变量之间的关系时,我将使用黄土平滑器(离群值检测已关闭,例如在R中)lowess(x, y, iter=0)

在R Hmisc包的下一个版本中,您可以轻松创建一个lattice图形,将这些曲线放入多面板显示中,以显示多个预测变量,例如

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)

1

如果您对简单的散点图不满意,则可能需要在离散变量的每个值处添加数据点的频率。然后如何执行此操作仅取决于您使用的统计程序。这是Stata 的示例。您也可以将其应用于两个类别变量的散点图。否则,可以使用箱形图或重叠的条形图,但这实际上取决于您要如何显示这些变量。


1

我在http://www.boekboek.com/xb130929113026上找到了一篇适用于两个二进制变量之间的关联的论文-在该文章中显示并证明了两个二进制变量之间的关联强度可以表示为完美的联想。因此,有可能并最好声明:变量A和变量B之间的关联例如为50%,而不是同时指出:OR = 9(不容易解释)或实际风险= 2(同时考虑了相对风险)虽然它实际上是关联,患病率或发病率和阳性的函数,但也可以作为关联的量度)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.