Answers:
下图:原始图可能会产生误导,因为变量的离散性质使点重叠:
解决该问题的一种方法是为数据符号引入一些透明度:
另一种方法是稍微移动符号的位置以产生拖尾。这种技术称为“抖动”:
两种解决方案仍将允许您拟合直线以评估线性。
R代码供您参考:
x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)
我将使用箱线图显示离散变量和连续变量之间的关系。您可以使用标准统计软件使箱形图垂直或水平放置,因此很容易将其可视化为IV或DV。它是可以使用的散点图具有离散和连续变量,只是一个数字分配给离散变量(例如,1和2),和抖动的那些值(注顶部情节上右这里)。
关于您认为最合适的产品线可能有偏见的评论,这取决于您拥有什么。例如,如果您有一个离散变量,其IV为两个级别,而一个连续变量为DV,则可以通过这两种方法画一条线,这不会有偏差。(我们通常认为这种情况适合进行t检验,但实际上它是一种回归形式,即简单的情况,请参见此处的答案。)另一方面,如果您有离散的变量以DV作为两个级别,标准(OLS)回归将是不合适的(需要进行逻辑回归),并且最佳拟合线会出现偏差,但是您可以拟合(并绘制)最低的线作为初始变量的一部分数据探索。
我在http://www.boekboek.com/xb130929113026上找到了一篇适用于两个二进制变量之间的关联的论文-在该文章中显示并证明了两个二进制变量之间的关联强度可以表示为完美的联想。因此,有可能并最好声明:变量A和变量B之间的关联例如为50%,而不是同时指出:OR = 9(不容易解释)或实际风险= 2(同时考虑了相对风险)虽然它实际上是关联,患病率或发病率和阳性的函数,但也可以作为关联的量度)。