下图中和之间的关系是什么?在我看来,存在负线性关系,但是由于我们有很多异常值,因此该关系非常弱。我对吗?我想学习如何解释散点图。X
下图中和之间的关系是什么?在我看来,存在负线性关系,但是由于我们有很多异常值,因此该关系非常弱。我对吗?我想学习如何解释散点图。X
Answers:
这个问题涉及几个概念:如何评估仅以散点图形式给出的数据,如何汇总散点图以及关系是否(以及在何种程度上)看起来线性。让我们按顺序整理它们。
探索性数据分析(EDA)的使用原则。 这些(至少在最初是为铅笔和纸使用而开发时)强调简单,易于计算,健壮的数据摘要。最简单的一种汇总是基于一组数字(例如中间值)中的位置,中间值描述了“典型”值。 中间值很容易从图形可靠地估计。
散点图显示成对的数字。每对中的第一个(如横轴上所示)给出一组单个数字,我们可以分别对其进行总结。
在此特定散点图中,y值似乎位于两个几乎完全独立的组中:顶部的以上的值和底部的以下的值。(这种印象可以通过绘制y值的直方图来确认,该图很明显是双峰的,但是在此阶段需要做很多工作。)我请怀疑论者在散点图上起眼睛。当我使用散点图中的点进行大半径,伽马校正的高斯模糊(即标准的快速图像处理结果)时,我会看到:60
上下两类很明显。(上一组比下一组轻得多,因为它包含的点少得多。)
因此,让我们分别总结y值的组。我将通过在两组的中值处绘制水平线来做到这一点。为了强调数据的印象并显示我们没有进行任何类型的计算,我(a)删除了所有装饰,例如轴和网格线,并且(b)使点模糊。通过“斜视”图形,几乎没有关于数据模式的信息:
同样,我尝试用垂直线段标记x值的中位数。在上面的组(红线)中,您可以通过计数斑点来检查这些线确实将组分为水平和垂直两个相等的两半。在下一组(蓝线)中,我仅凭视觉估算位置,而没有实际进行任何计数。
相交点是两组的中心。 关于x和y值之间关系的一个很好的总结是报告这些中心位置。 然后,人们可能希望通过描述每一组在其中心周围左右(左右,上下)的数据分布来补充此摘要。为了简洁起见,我在这里不做这些,但是请注意,(大致)我绘制的线段的长度反映了每个组的总体分布。
最后,我画了一条(虚线)连接两个中心。 这是一条合理的回归线。 它是对数据的良好描述吗?当然不是:看看这条线的数据分布情况如何。它甚至是线性的证据吗?这几乎没有关系,因为线性描述太差了。但是,因为这是摆在我们面前的问题,所以让我们解决它。
当y值围绕一条线以平衡的随机方式变化,或者 x值围绕一条线(或两者)以平衡的随机方式变化时,在统计意义上,关系是线性的。
前者在这里似乎不是这种情况:因为y值似乎分为两组,所以它们的变化从在线的上方或下方大致对称分布的意义上看,永远不会显得平衡。(这立即排除了将数据转储到线性回归包中并针对x对y进行最小二乘拟合的可能性:答案将无关紧要。)
那么x的变化呢?这更合理:在图上的每个高度处,虚线周围的点的水平散布都相当平衡。该价差在这种分散似乎是在较低的高度稍微更大(低y值),但也许是因为有更多的点存在。(您拥有的随机数据越多,其极值往往会越宽。)
而且,当我们从上到下进行扫描时,在回归线周围的水平散布没有任何地方会严重失衡:这可能是非线性的证据。(好吧,也许在y = 50左右,可能会有太多的x值。这种微妙的效果可以作为进一步的证据,将数据分为y = 60值附近的两组。)
我们已经看到
将x视为y的线性函数加上一些“不错的”随机变化是有意义的。
它并没有任何意义的Y为x加随机变化的线性函数。
可以通过将数据分为一组高y值和一组低y值,使用中值找到两组的中心并连接这些中心来估计回归线。
所得的线具有向下的斜率,表示负线性关系。
线性没有很大的偏差。
但是,由于沿线的x值的散布仍然很大(与开始时x值的整体散布相比),我们必须将这种负线性关系描述为“非常弱”。
将数据描述为形成两个椭圆形的云可能更有用(一个用于60以上的y,另一个用于y的较低的云)。在每个云中,x和y之间几乎没有可检测的关系。云的中心在(0.29,90)和(0.38,30)附近。云具有可比的散布,但是上层云的数据要比下层云少得多(也许是20%)。
其中两个结论证实了在问题本身中得出的结论,即负关系微弱。其他人补充并支持这些结论。
在这个问题上似乎没有成立的一个结论是,存在“异常值”的断言。进行更仔细的检查(如下图所示)将不会出现任何单独的点,甚至是很小的一组点,这些点或点可以有效地视为离群值。经过足够长时间的分析后,可能会引起人们的注意:右中角附近的两个点或左下角的一个点,但是即使不考虑这些点,也不会很大地改变人们对数据的评估边远。
可以说更多。 下一步将是评估这些云的传播。使用此处显示的相同技术,可以分别评估两个云中每个x和y之间的关系。可以评估甚至更低的云的轻微不对称性(似乎在最小的y值处出现更多数据),甚至可以通过重新表达y值进行调整(平方根可能会很好)。在此阶段,寻找外围数据将是有意义的,因为在这一点上,描述将包括有关典型数据值及其范围的信息。离群值(根据定义)离中间值太远,无法根据观察到的扩散量进行解释。
这项工作(非常定量)并不需要找到大量数据组并对其进行一些简单的计算,因此,即使数据只能以图形形式提供,也可以快速而准确地完成。使用显示系统(例如,硬拷贝和铅笔:-),可以在几秒钟内轻松找到此处报告的每个结果(包括定量值),该显示系统可以在图形上方进行浅色标记。
让我们一起玩吧!
系数估计为:
我要指出的是,尽管可重低音表示没有强线性关系,但铰链项所暗示的与线的偏差与的斜率处于相同的数量级(即37.7),所以我会恭敬地不同意我们看不到强非线性关系(即是的,没有强关系,但是非线性项与线性项一样强)。X
解释
(我假设您只对作为因变量感兴趣。)很难预测值(Adjusted- = 0.03)。关联近似为线性,斜率略有下降,约为0.46。残差在右侧有些偏斜,这可能是因为是值的下限。给定样本量,我倾向于容忍违反正常性的行为。对于更多观察将有助于确定坡度的变化是真实的还是方差减小的伪影Y X R 2 Y N = 170 X > 0.5 Y 在那个范围内。
使用图进行更新:
(红线只是X上ln(Y)的线性回归。)
拉斯·伦斯(Russ Lenth)在评论中写道:“我只是想知道,如果将对平滑化,是否会偏斜。” 这是一个很好的建议,因为变换与拟合也比和之间的线的残差更对称地分布更好。但是,他建议的和我的线性铰链都偏爱(未变换的)和之间的关系,该关系未用直线描述。X Y log Y X Y X log (Y )X Y X
这是我的2¢ 1.5¢。对我而言,最显着的特征是数据突然停止并“聚集”在Y范围的底部。我确实看到了两个(潜在)“簇”和一般的负关联,但最显着的特征是(潜在的)底线效应以及顶部,低密度簇仅在X范围的一部分上延伸的事实。
由于“簇”几乎是双变量正态,因此尝试使用参数正态混合模型可能会很有趣。使用@Alexis的数据,我发现三个集群优化了BIC。高密度的“地板效果”被选为第三类。代码如下:
library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")
mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
# Gaussian finite mixture model fitted by EM algorithm
# ----------------------------------------------------
#
# Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#
# log.likelihood n df BIC ICL
# -614.4713 170 14 -1300.844 -1338.715
#
# Clustering table:
# 1 2 3
# 72 72 26
现在,我们可以从中推断出什么?我不认为Mclust
仅仅是人类模式识别出现了问题。(鉴于我对散点图的阅读可能是正确的。)另一方面,毫无疑问,这是事后的。我看到了我认为可能是有趣的模式,因此决定进行检查。该算法确实找到了一些东西,但是随后我只检查了我认为可能存在的东西,因此我的拇指肯定在秤上。有时可以设计出应对缓解这一战略(见@ whuber的出色答卷这里),但我不知道如何去这样一个过程在这样的情况下。结果,我用了很多盐就得出了这些结果(我经常做这种事情,以至于有人错过了整个摇床)。当我下次见面时,确实为我提供了一些思考和与客户讨论的材料。这些数据是什么?可能会产生地板效应吗?可以有不同的群体有意义吗?如果这些都是真实的,那将是多么有意义/令人惊讶/有趣/重要?是否存在独立数据/我们是否可以方便地获取它们以对这些可能性进行诚实的测试?等等。
让我描述一下我看到的内容:
如果我们对的条件分布感兴趣(如果将看作IV并将看作DV,那么这通常是关注的焦点),那么对于,的条件分布看起来是双峰的,且具有较高的组(介于约70和125之间,平均低于100)和较低的组(介于0和70之间,平均约为30左右)。在每个模态组中,与的关系几乎是平坦的。(请参见下面大致画出的红色和蓝色线条,我猜这大概是对位置的感觉)X ÿ X ≤ 0.5 ÿ | X X
然后,通过查看这两个组在或多或少的密度,我们可以继续说更多:
当,上方的组完全消失,这使的总体均值下降,而在大约0.2以下时,下方的组比其上方的密度低得多,从而使整体平均值更高。x
在这两种效应之间,它引起两者之间明显的负(但非线性)关系,因为似乎相对于呈减小趋势,但中心区域较宽,大部分为平坦区域。(请参见紫色虚线)x
毫无疑问,知道和是什么很重要,因为这样可能会更清楚为什么的条件分布可能在其大部分范围内都是双峰的(实际上,甚至可能会清楚地知道确实有两组,它们的分布引起的表观下降关系。X Y X Y | X
我所看到的完全是基于“肉眼”检查。在一些类似基本图像处理程序(例如我画线的程序)的玩法中,我们可以开始找出一些更准确的数字。如果我们将数据数字化(使用像样的工具非常简单,有时需要一点乏味才能正确处理),那么我们可以对这种印象进行更复杂的分析。
这种探索性分析可能会导致一些重要的问题(有时会令那些拥有数据但仅显示图表的人感到惊讶),但我们必须谨慎对待此类检查选择的模型的范围-如果我们应用基于图的外观选择的模型,然后在相同数据上估计这些模型,当我们对相同数据使用更正式的模型选择和估计时,我们往往会遇到相同的问题。[这完全不是要否认探索性分析的重要性-只是我们必须注意这样做的后果,而不考虑我们如何进行。]
回应拉斯的评论:
[后编辑:为了澄清-我大体上同意罗斯作为一般预防措施的批评,当然,我所看到的可能性确实要比实际情况多。我计划返回并编辑这些内容,以对我们通常用肉眼识别的虚假模式以及我们可能开始避免的最坏情况进行更广泛的评论。我相信我也能够添加一些理由,说明为什么我认为在这种特定情况下它可能不只是虚假的(例如,通过回归图或0阶内核平滑,尽管当然,缺少更多的数据要进行测试,只有可以做到的为止;例如,如果我们的样本不具有代表性,那么即使重新采样也只能使我们到目前为止。]
我完全同意,我们倾向于看到虚假模式。我经常在这里和其他地方都提到这一点。
例如,我建议在查看残差图或QQ图时,要生成许多已知情况的图(无论是应该知道的情况还是假设不成立的地方),以便清楚地知道应该使用多少模式。忽略了。
这是一个示例,其中QQ图被放置在其他24个图中(满足假设),以使我们看到该图有多寻常。这种练习非常重要,因为它可以帮助我们通过解释每一个小小的摆动来避免自己上当,其中大多数都是简单的噪音。
我经常指出,如果您可以通过覆盖几个点来改变印象,那么我们可能会依赖于噪声所产生的印象。
[但是,当从很多方面而不是少数方面显而易见时,很难保证它不存在。]
豪布尔的答案中的显示支持我的印象,高斯模糊图似乎在呈现出相同的双峰趋势。
当我们没有更多的数据要检查时,我们至少可以查看印象是否倾向于重采样(引导双变量分布并查看是否几乎始终存在)或其他不应该使印象明显的操作如果是简单的噪音。
1)这是查看表观双峰态是否不仅仅是偏度加噪声的一种方法-它是否出现在内核密度估计中?如果我们在各种变换下绘制内核密度估计值,它仍然可见吗?在这里,我将其转换为更大的对称性,达到默认带宽的85%(因为我们正在尝试确定一个相对较小的模式,并且默认带宽并未针对该任务进行优化):
这些图是,和。垂直线位于,和。双峰减少了,但仍然很明显。由于在原始KDE中非常清楚,因此似乎可以确认它在那里-第二和第三幅图表明它至少对转换具有一定的鲁棒性。√日志(Ý)68 √日志(68)
2)这是查看它是否不仅仅是“噪声”的另一种基本方法:
步骤1:在Y上执行聚类
步骤2:在上分成两组,然后分别将这两个组聚类,看看它们是否非常相似。如果没有任何进展,则不应期望将这两个部分完全分割。
带有点的点的聚类与上图中“所有集”聚类不同。我待会再做一些,但似乎在该位置附近可能确实存在一个水平的“拆分”。
我将尝试使用回归图或Nadaraya-Watson估计器(均是回归函数局部估计)。我还没有生成,但是我们将看看它们的运行情况。我可能会排除数据很少的末端。
3)编辑:这是针对宽度为0.1(不包括两端,如我之前建议的)的bin的回归图:
这完全符合我对情节的最初印象;并不能证明我的推理是正确的,但是我的结论与回归图得出的结果相同。
如果我在情节中看到的内容以及由此产生的推理是虚假的,那么我可能不应该成功地识别出。
(接下来要尝试的是Nadayara-Watson估计器。如果有时间,我可能会看到它在重采样下如何进行。)
4)以后编辑:
Nadarya-Watson,高斯内核,带宽0.15:
同样,这与我的最初印象令人惊讶地一致。以下是基于十个引导程序重采样的NW估算器:
尽管有两次重采样并没有像对整个数据的描述那样清晰地遵循描述,但是这里存在着广泛的模式。我们看到,左边水平的情况比右边水平的情况不确定-噪声水平(部分是来自很少的观察,部分是来自广泛的传播),因此很难断言均值确实更高。离开中心。
我的总体印象是,我可能并没有简单地自欺欺人,因为各个方面都可以很好地应对各种挑战(平滑,转换,分成小组,重采样),如果这些挑战仅仅是噪音,它们就会使他们难以理解。另一方面,迹象表明,虽然效果与我的最初印象大致相符,但效果相对较弱,因此,要求从左侧移动到中央的实际预期变化可能太大了。
好的,伙计们,我跟随亚历克西斯(Alexis)的头,并捕获了数据。这是与。X
以及相关性:
> cor.test(~ x + y, data = data)
Pearson's product-moment correlation
data: x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.33836844 -0.04977867
sample estimates:
cor
-0.1983692
> cor.test(~ x + log(y), data = data)
Pearson's product-moment correlation
data: x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.35551268 -0.06920015
sample estimates:
cor
-0.2170188
相关检验确实表明可能存在负相关性。我不相信任何双峰方式(但也不相信它不存在)。
[我删除了早期版本中的残差图,因为我忽略了@whuber试图预测的观点。]
Russ Lenth想知道如果Y轴是对数的,图形将如何显示。Alexis抓取了数据,因此很容易使用对数轴进行绘制:
在对数刻度上,没有双峰或趋势的迹象。当然,对数刻度是否有意义取决于数据表示的细节。同样,是否有理由认为数据代表了两个种群的抽样,这取决于细节。
附录:根据以下评论,这是修订版:
好吧,你是对的,关系很弱,但不为零。我想肯定。但是,不要猜测,只需运行简单的线性回归(OLS回归)并找出答案!那里您将得到xxx的斜率,该斜率告诉您关系是什么。是的,您的确有可能使结果有偏差的异常值。可以解决。您可以使用库克距离或创建杠杆图来估计异常值对关系的影响。
祝好运
这是家庭作业。因此,您的问题的答案很简单。在X上对Y进行线性回归,您将得到如下所示:
Coefficient Standard Er t Stat
C 53.14404163 6.522516463 8.147781908
X -44.8798926 16.80565866 -2.670522684
因此,t统计量对X变量具有99%的置信度。因此,您可以将变量声明为具有某种关系。
它是线性的吗?添加变量X2 =(X-mean(X))^ 2,然后再次回归。
Coefficient Stand Err t Stat
C 53.46173893 6.58938281 8.11331508
X -43.9503443 17.01532569 -2.582985779
X2 -44.601130 114.1461801 -0.390736951
X处的系数仍然很重要,但X2则没有。X2代表非线性。因此,您声明该关系似乎是线性的。
以上是家庭作业。
在现实生活中,事情更加复杂。想象一下,这是关于一班学生的数据。Y-卧推(以磅为单位),X-时间(以分钟为单位),在卧推之前屏气。我要问学生的性别。只是为了好玩,让我们添加另一个变量Z,并假设对于所有Y <60,Z = 1(女孩),而当Y> = 60时Z = 0(男孩)。使用三个变量运行回归:
Coefficient Stand Error t Stat
C 92.93031357 3.877092841 23.969071
X -6.55246715 8.977138488 -0.72990599
X2 -43.6291362 59.06955097 -0.738606194
Z -63.3231270 2.960160265 -21.39179009
发生了什么?!X和Y之间的“关系”已经消失!哦,由于变量,性别混杂,看来这种关系是虚假的。
这个故事的寓意是什么?您需要知道什么数据才能“解释”“关系”,甚至首先要建立关系。在这种情况下,当我被告知有关学生体育锻炼的数据时,我会立即询问他们的性别,甚至在不获取性别变量的情况下也不会费心分析数据。
另一方面,如果要求您“描述”散点图,那么一切都会进行。相关性,线性拟合等。对于您的家庭作业,上面的前两个步骤应该足够了:查看X的系数(关系),然后查看X ^ 2(线性)。确保去除X变量的平均值(减去均值)。