在此图中,


38

下图中和之间的关系是什么?在我看来,存在负线性关系,但是由于我们有很多异常值,因此该关系非常弱。我对吗?我想学习如何解释散点图。XYX

在此处输入图片说明


3
什么是?什么是?您产生什么异常值?是什么让您认为它们不是真实的度量?理论是什么?ÿXY
abaumann 2014年

4
谢谢你的评论。我只是在一本书中看到这个情节。Y是因变量,X是自变量。没有理论。它绘制了一个散点图以显示给定x的Y的关系。书中有一个问题问是否存在任何关系,线性还是非线性?强还是弱?
PSS

7
这是枪法学的练习。这在日间交易者中非常流行,他们称之为技术分析。基本上,在不了解数据性质的情况下,这是徒劳的活动
Aksakal 2014年

1
@chl,您为向赏金者捐款而摇摆不定=)
Cam.Davidson.Pilon 2014年

3
@Aksakal统计语言通常从字面上理解“关系”:描述数字元组集。例如,相关系数描述了一种关系。潜在变量之间的发生,性质或因果关系没有任何暗示。我同意你的理解,通常对“解释”的理解更为深刻,但是由于在问题中过分强调关系,我认为不将“解释”的字面意思推得太远是很公平的。恕我直言,认为描述散点图只是阅读茶叶太过分了。
ub

Answers:


50

这个问题涉及几个概念:如何评估仅以散点图形式给出的数据,如何汇总散点图以及关系是否(以及在何种程度上)看起来线性。让我们按顺序整理它们。

评估图形数据

探索性数据分析(EDA)的使用原则。 这些(至少在最初是为铅笔和纸使用而开发时)强调简单,易于计算,健壮的数据摘要。最简单的一种汇总是基于一组数字(例如中间值)中的位置,中间值描述了“典型”值。 中间值很容易从图形可靠地估计。

散点图显示成对的数字。每对中的第一个(如横轴上所示)给出一组单个数字,我们可以分别对其进行总结。

在此特定散点图中,y值似乎位于两个几乎完全独立的组中:顶部的以上的值和底部的以下的值。(这种印象可以通过绘制y值的直方图来确认,该图很明显是双峰的,但是在此阶段需要做很多工作。)我请怀疑论者在散点图上起眼睛。当我使用散点图中的点进行大半径,伽马校正的高斯模糊(即标准的快速图像处理结果)时,我会看到:606060

图0

上下两类很明显。(上一组比下一组轻得多,因为它包含的点少得多。)

因此,让我们分别总结y值的组。我将通过在两组的中值处绘制水平线来做到这一点。为了强调数据的印象并显示我们没有进行任何类型的计算,我(a)删除了所有装饰,例如轴和网格线,并且(b)使点模糊。通过“斜视”图形,几乎没有关于数据模式的信息:

数字

同样,我尝试用垂直线段标记x值的中位数。在上面的组(红线)中,您可以通过计数斑点来检查这些线确实将组分为水平和垂直两个相等的两半。在下一组(蓝线)中,我仅凭视觉估算位置,而没有实际进行任何计数。

评估关系:回归

相交点是两组的中心。 关于x和y值之间关系的一个很好的总结是报告这些中心位置。 然后,人们可能希望通过描述每一组在其中心周围左右(左右,上下)的数据分布来补充此摘要。为了简洁起见,我在这里不做这些,但是请注意,(大致)我绘制的线段的长度反映了每个组的总体分布。

最后,我画了一条(虚线)连接两个中心。 这是一条合理的回归线。 它是对数据的良好描述吗?当然不是:看看这条线的数据分布情况如何。它甚至是线性的证据吗?这几乎没有关系,因为线性描述太差了。但是,因为这是摆在我们面前的问题,所以让我们解决它。

评估线性

当y值围绕一条线以平衡的随机方式变化,或者 x值围绕一条线(或两者)以平衡的随机方式变化时在统计意义上,关系是线性的

前者在这里似乎不是这种情况:因为y值似乎分为两组,所以它们的变化从在线的上方或下方大致对称分布的意义上看,永远不会显得平衡。(这立即排除了将数据转储到线性回归包中并针对x对y进行最小二乘拟合的可能性:答案将无关紧要。)

那么x的变化呢?这更合理:在图上的每个高度处,虚线周围的点的水平散布都相当平衡。该价差在这种分散似乎是在较低的高度稍微更大(低y值),但也许是因为有更多的点存在。(您拥有的随机数据越多,其极值往往会越宽。)

而且,当我们从上到下进行扫描时,在回归线周围的水平散布没有任何地方会严重失衡:这可能是非线性的证据。(好吧,也许在y = 50左右,可能会有太多的x值。这种微妙的效果可以作为进一步的证据,将数据分为y = 60值附近的两组。)

结论

我们已经看到

  • 将x视为y的线性函数加上一些“不错的”随机变化是有意义的。

  • 它并没有任何意义的Y为x加随机变化的线性函数。

  • 可以通过将数据分为一组高y值和一组低y值,使用中值找到两组的中心并连接这些中心来估计回归线。

  • 所得的线具有向下的斜率,表示线性关系。

  • 线性没有很大的偏差。

  • 但是,由于沿线的x值的散布仍然很大(与开始时x值的整体散布相比),我们必须将这种负线性关系描述为“非常弱”。

  • 将数据描述为形成两个椭圆形的云可能更有用(一个用于60以上的y,另一个用于y的较低的云)。在每个云中,x和y之间几乎没有可检测的关系。云的中心在(0.29,90)和(0.38,30)附近。云具有可比的散布,但是上层云的数据要比下层云少得多(也许是20%)。

其中两个结论证实了在问题本身中得出的结论,即负关系微弱。其他人补充并支持这些结论。

在这个问题上似乎没有成立的一个结论是,存在“异常值”的断言。进行更仔细的检查(如下图所示)将不会出现任何单独的点,甚至是很小的一组点,这些点或点可以有效地视为离群值。经过足够长时间的分析后,可能会引起人们的注意:右中角附近的两个点或左下角的一个点,但是即使不考虑这些点,也不会很大地改变人们对数据的评估边远。


进一步指示

可以说更多。 下一步将是评估这些云的传播。使用此处显示的相同技术,可以分别评估两个云中每个x和y之间的关系。可以评估甚至更低的云的轻微不对称性(似乎在最小的y值处出现更多数据),甚至可以通过重新表达y值进行调整(平方根可能会很好)。在此阶段,寻找外围数据将是有意义的,因为在这一点上,描述将包括有关典型数据值及其范围的信息。离群值(根据定义)离中间值太远,无法根据观察到的扩散量进行解释。

这项工作(非常定量)并不需要找到大量数据组并对其进行一些简单的计算,因此,即使数据只能以图形形式提供,也可以快速而准确地完成。使用显示系统(例如,硬拷贝和铅笔:-),可以在几秒钟内轻松找到此处报告的每个结果(包括定量值),该显示系统可以在图形上方进行浅色标记。


4
哇。我将永远不会看到这两个组以及结果行。我对此表示怀疑。
rvl 2014年

4
@Russ我很高兴听到有人质疑这一探索,因为没有EDA是唯一的或确定性的。我提供了另一张图片,以帮助您了解我所看到的。我想邀请您发表一个答案,该答案同等或更简化,并且具有描述性。
ub

12
作为人类,我们非常倾向于寻找模式,甚至是那些不存在的模式。我认为,仅使用两个独立的RV(其中一个是倾斜的)来获得一个像我们这里这样的散点图是很合理的。我没有任何证据,也没有其他分析可提供-除了说很少或没有关系的分析。是的,可能存在双峰。如果可以进一步观察该过程,我们可以看到发生了什么。我只是认为我们需要保持谨慎并意识到我们倾向于对似乎虚假的模式做出反应的倾向。
rvl 2014年

4
@俄罗斯你是正确的。需要经验来避免过多地阅读模式。我的经验表明,使用150-200点很难随机获得我在y坐标中测得的强双峰。如今,可以通过模拟轻松,快速地补充这种经验:当您认为看到某种模式时,(1)对其进行定量表征,(2)在根据更简单的替代假设生成的随机样本中寻找它。如果图案显示得非常多,则可以怪罪您的视觉皮层,但否则您可能会发现一些东西。
ub

1
@Russ谢谢。那不是我描述的残差图-x和y的作用相反。但是,它仍然可以提供信息。异方差是最引人注目的事情:它实际上似乎为两类假说提供了支持(这会使异方差消失)。提醒您,我对这个假设一无所知。我在这里编写的所有内容都是本着对数据进行仔细,可靠描述的初衷。描述这些数据的任何一条曲线都将是粗略的,并且可能无法令人满意。
ub

31

让我们一起玩吧!

首先,我从您的图表上抓取数据

X=0.4X

Y=β0+βXX+βcmax(Xθ,0)+ε

系数估计为:

Y=50.937.7X26.74436max(X0.46,0)

我要指出的是,尽管可重低音表示没有强线性关系,但铰链项所暗示的与线的偏差与的斜率处于相同的数量级(即37.7),所以我会恭敬地不同意我们看不到强非线性关系(即是的,没有强关系,但是非线性项与线性项一样强)。XY=50.937.7XX

播放时间与数据

解释
(我假设您只对作为因变量感兴趣。)很难预测值(Adjusted- = 0.03)。关联近似为线性,斜率略有下降,约为0.46。残差在右侧有些偏斜,这可能是因为是值的下限。给定样本量,我倾向于容忍违反正常性的行为。对于更多观察将有助于确定坡度的变化是真实的还是方差减小的伪影Y X R 2 Y N = 170 X > 0.5 YYYXR2YN=170X>0.5Y 在那个范围内。

使用图进行更新:ln(Y)

(红线只是X上ln(Y)的线性回归。)

根据Russ Lenth的建议更新了图表。

拉斯·伦斯(Russ Lenth)在评论中写道:“我只是想知道,如果将对平滑化,是否会偏斜。” 这是一个很好的建议,因为变换与拟合也比和之间的线的残差更对称地分布更好。但是,他建议的和我的线性铰链都偏爱(未变换的)和之间的关系,该关系未用直线描述。X Y log Y X Y X log Y X Y XlogYXYlogYXYXlog(Y)XYX


1
我只是想知道是否可以使 vs.平滑。的分布偏右,我认为使该分布更加对称的变换看起来也不太像标志性的零散点图。X YlogYXY
rvl 2014年

1
@Russ经典的是,双峰分布可能会出现偏斜并建议对数转换。但是这里的y分布确实是双峰的,对数可能不是重新表达它的有用方法。当这两个分量分开时,较低的分量仍会正偏,并且平方根大约是正确的量,以对其进行变换以获得对称分布。平方根不会明显影响上层组的对称性,表明该根可能是一个不错的选择。但是,这并不能解决双峰问题,而这种平滑问题就存在于其中。
ub

1
亚历克西斯(Alexis),在我们的回答中,我们两个都以未定义方式使用“强”而感到内gui。在我的某些措辞中暗示了我的意思是“弱”,它的意思是表明与y值的散布相比,斜率小。在这方面,我认为您的分析没有得出任何不同的结论。我感到需要谨慎,因为假设假设y的混合模型可能有优势,那么看起来较高的组中x和y之间实际上可能存在弱的关系,而较低的组中没有关系。
ub

3
Tukey的EDA书中的Alexis 充满了他们。有关更多的技术(具有更高的复杂性和数学上的论据),请参见Hoaglin,Mosteller和Tukey,《了解鲁棒性和探索性数据分析》
ub

2
@rivu手册。顶了10或15分钟。首先使用指针放置每个点,然后使用箭头键将其精确定位。
亚历克西斯2014年

21

这是我的 1.5¢。对我而言,最显着的特征是数据突然停止并“聚集”在Y范围的底部。我确实看到了两个(潜在)“簇”和一般的负关联,但最显着的特征是(潜在的)底线效应以及顶部,低密度簇仅在X范围的一部分上延伸的事实。

由于“簇”几乎是双变量正态,因此尝试使用参数正态混合模型可能会很有趣。使用@Alexis的数据,我发现三个集群优化了BIC。高密度的“地板效果”被选为第三类。代码如下:

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26 

在此处输入图片说明

现在,我们可以从中推断出什么?我不认为Mclust仅仅是人类模式识别出现了问题。(鉴于我对散点图的阅读可能是正确的。)另一方面,毫无疑问,这是事后的。我看到了我认为可能是有趣的模式,因此决定进行检查。该算法确实找到了一些东西,但是随后我只检查了我认为可能存在的东西,因此我的拇指肯定在秤上。有时可以设计出应对缓解这一战略(见@ whuber的出色答卷这里),但我不知道如何去这样一个过程在这样的情况下。结果,我用了很多盐就得出了这些结果(我经常做这种事情,以至于有人错过了整个摇床)。当我下次见面时,确实为我提供了一些思考和与客户讨论的材料。这些数据是什么?可能会产生地板效应吗?可以有不同的群体有意义吗?如果这些都是真实的,那将是多么有意义/令人惊讶/有趣/重要?是否存在独立数据/我们是否可以方便地获取它们以对这些可能性进行诚实的测试?等等。


1
+1用于指出探索性分析是如何自然导致有趣的问题的。我希望我在回答中更加强调了这一点。尽管我认为这会促使人们相信(此时)确实存在三个不同的组,但是聚类结果仍然提供了一种有效的方式,可以看到 x和y之间存在负关系并总结该关系。我被问到自动聚类在多大程度上可以作为一种普遍有用的探索性工具,前提是我们不愿意过多地了解结果。
ub

14

让我描述一下我看到的内容:

如果我们对的条件分布感兴趣(如果将看作IV并将看作DV,那么这通常是关注的焦点),那么对于,的条件分布看起来是双峰的,且具有较高的组(介于约70和125之间,平均低于100)和较低的组(介于0和70之间,平均约为30左右)。在每个模态组中,与的关系几乎是平坦的。(请参见下面大致画出的红色和蓝色线条,我猜这大概是对位置的感觉)X ÿ X 0.5 ÿ | X Xyxyx0.5Y|xx

然后,通过查看这两个组在或多或少的密度,我们可以继续说更多:X

当,上方的组完全消失,这使的总体均值下降,而在大约0.2以下时,下方的组比其上方的密度低得多,从而使整体平均值更高。xx>0.5x

在这两种效应之间,它引起两者之间明显的负(但非线性)关系,因为似乎相对于呈减小趋势,但中心区域较宽,大部分为平坦区域。(请参见紫色虚线)xE(Y|X=x)x

在此处输入图片说明

毫无疑问,知道和是什么很重要,因为这样可能会更清楚为什么的条件分布可能在其大部分范围内都是双峰的(实际上,甚至可能会清楚地知道确实有两组,它们的分布引起的表观下降关系。X Y X Y | XYXYXY|x

我所看到的完全是基于“肉眼”检查。在一些类似基本图像处理程序(例如我画线的程序)的玩法中,我们可以开始找出一些更准确的数字。如果我们将数据数字化(使用像样的工具非常简单,有时需要一点乏味才能正确处理),那么我们可以对这种印象进行更复杂的分析。

这种探索性分析可能会导致一些重要的问题(有时会令那些拥有数据但仅显示图表的人感到惊讶),但我们必须谨慎对待此类检查选择的模型的范围-如果我们应用基于图的外观选择的模型,然后在相同数据上估计这些模型,当我们对相同数据使用更正式的模型选择和估计时,我们往往会遇到相同的问题。[这完全不是要否认探索性分析的重要性-只是我们必须注意这样做的后果,而不考虑我们如何进行。]


回应拉斯的评论:

[后编辑:为了澄清-我大体上同意罗斯作为一般预防措施的批评,当然,我所看到的可能性确实要比实际情况多。我计划返回并编辑这些内容,以对我们通常用肉眼识别的虚假模式以及我们可能开始避免的最坏情况进行更广泛的评论。我相信我也能够添加一些理由,说明为什么我认为在这种特定情况下它可能不只是虚假的(例如,通过回归图或0阶内核平滑,尽管当然,缺少更多的数据要进行测试,只有可以做到的为止;例如,如果我们的样本不具有代表性,那么即使重新采样也只能使我们到目前为止。]

我完全同意,我们倾向于看到虚假模式。我经常在这里和其他地方都提到这一点。

例如,我建议在查看残差图或QQ图时,要生成许多已知情况的图(无论是应该知道的情况还是假设不成立的地方),以便清楚地知道应该使用多少模式。忽略了。

这是一个示例,其中QQ图被放置在其他24个图中(满足假设),以使我们看到该图有多寻常。这种练习非常重要,因为它可以帮助我们通过解释每一个小小的摆动来避免自己上当,其中大多数都是简单的噪音。

我经常指出,如果您可以通过覆盖几个点来改变印象,那么我们可能会依赖于噪声所产生的印象。

[但是,当从很多方面而不是少数方面显而易见时,很难保证它不存在。]

豪布尔的答案中的显示支持我的印象,高斯模糊图似乎在呈现出相同的双峰趋势。Y

当我们没有更多的数据要检查时,我们至少可以查看印象是否倾向于重采样(引导双变量分布并查看是否几乎始终存在)或其他不应该使印象明显的操作如果是简单的噪音。

1)这是查看表观双峰态是否不仅仅是偏度加噪声的一种方法-它是否出现在内核密度估计中?如果我们在各种变换下绘制内核密度估计值,它仍然可见吗?在这里,我将其转换为更大的对称性,达到默认带宽的85%(因为我们正在尝试确定一个相对较小的模式,并且默认带宽并未针对该任务进行优化):

在此处输入图片说明

这些图是,和。垂直线位于,和。双峰减少了,但仍然很明显。由于在原始KDE中非常清楚,因此似乎可以确认它在那里-第二和第三幅图表明它至少对转换具有一定的鲁棒性。Y日志Ý68Ylog(Y)68日志6868log(68)

2)这是查看它是否不仅仅是“噪声”的另一种基本方法:

步骤1:在Y上执行聚类

在此处输入图片说明

步骤2:在上分成两组,然后分别将这两个组聚类,看看它们是否非常相似。如果没有任何进展,则不应期望将这两个部分完全分割。X

在此处输入图片说明

带有点的点的聚类与上图中“所有集”聚类不同。我待会再做一些,但似乎在该位置附近可能确实存在一个水平的“拆分”。

我将尝试使用回归图或Nadaraya-Watson估计器(均是回归函数局部估计)。我还没有生成,但是我们将看看它们的运行情况。我可能会排除数据很少的末端。E(Y|x)

3)编辑:这是针对宽度为0.1(不包括两端,如我之前建议的)的bin的回归图:

在此处输入图片说明

这完全符合我对情节的最初印象;并不能证明我的推理是正确的,但是我的结论与回归图得出的结果相同。

如果我在情节中看到的内容以及由此产生的推理是虚假的,那么我可能不应该成功地识别出。E(Y|x)

(接下来要尝试的是Nadayara-Watson估计器。如果有时间,我可能会看到它在重采样下如何进行。)

4)以后编辑:

Nadarya-Watson,高斯内核,带宽0.15:

在此处输入图片说明

同样,这与我的最初印象令人惊讶地一致。以下是基于十个引导程序重采样的NW估算器:

在此处输入图片说明

尽管有两次重采样并没有像对整个数据的描述那样清晰地遵循描述,但是这里存在着广泛的模式。我们看到,左边水平的情况比右边水平的情况不确定-噪声水平(部分是来自很少的观察,部分是来自广泛的传播),因此很难断言均值确实更高。离开中心。

我的总体印象是,我可能并没有简单地自欺欺人,因为各个方面都可以很好地应对各种挑战(平滑,转换,分成小组,重采样),如果这些挑战仅仅是噪音,它们就会使他们难以理解。另一方面,迹象表明,虽然效果与我的最初印象大致相符,但效果相对较弱,因此,要求从左侧移动到中央的实际预期变化可能太大了。


1
我质疑了一个答案,但是我有信心说这是找到了不存在的东西
rvl

1
我试图推翻我的否决票,但我想我不能。仅仅因为我真的不同意您的回答,并不一定意味着它对讨论没有帮助。我不确定如何使用否决票,也并不意味着任何个人利益。p– rvl 2014
56

4
@Russ不用担心票数过低,这没关系,除了它表明我应该解决某些问题之外。了解为什么我们不同意(就我们所做的事情而言)比担心假冒的互联网要点重要得多。您有一个值得讨论的异议,而我很乐意为下一次简短的讨论付出十倍的反对票。如果您不同意,我鼓励您每次反对时都对我投反对票。那是我学习一些东西的机会。
Glen_b 2014年

1
@RussLenth,您可以通过重新单击否决票来撤销否决票。如果您不确定您的投票在悬浮文本上的向下(或向上)箭头位置,则会通知您。
Alexis 2014年

4
+1我实际上做了很多分析,但不想过多地用这些结果来扩展我的答案。您以清晰,可读和令人信服的形式展示了您的出色表现。另外我要做的一件事是使x相对于y回归(实际上是平滑的)(尽管y的特征是“从属的”):我认为结果有助于以某种不可知的方式评估关系中的非线性应该被视为一组或两组。
ub

13

好的,伙计们,我跟随亚历克西斯(Alexis)的头,并捕获了数据。这是与。Xlogyx对数(Y)与X的关系图

以及相关性:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188 

相关检验确实表明可能存在负相关性。我不相信任何双峰方式(但也不相信它不存在)。

[我删除了早期版本中的残差图,因为我忽略了@whuber试图预测的观点。]X|Y


2
顺便说一句...我刚刚想到,将log(Y)变换作为从属关系仍然等同于发现非线性关系...与我在其中使用的铰链函数相比,在残差方面,log(Y)更好我的回答...但是结论之一是相似的:和之间的关系比具有更好的功能表达式。XYXY=a+bX
亚历克西斯2014年

谢谢您那剩余的情节,拉斯。这不是要求,但我想指出的是,我发现感兴趣的(也许对于探索GoF具有更大的价值)是x作为y的函数的关系,而不是这种关系。查看x残差会提示一些迄今为止尚未提出的(可能有用的)问题,例如我们是否可以通过x的非线性重新表达来学习一些知识(是的,我们可以);无论两人假说(是),还是我的拟合的健壮性(非常健壮),都可以说很多。
ub

好吧,也许您想为此做残差图。我将继续讨论其他内容。
rvl 2014年

5

Russ Lenth想知道如果Y轴是对数的,图形将如何显示。Alexis抓取了数据,因此很容易使用对数轴进行绘制:

在此处输入图片说明

在对数刻度上,没有双峰或趋势的迹象。当然,对数刻度是否有意义取决于数据表示的细节。同样,是否有理由认为数据代表了两个种群的抽样,这取决于细节。


附录:根据以下评论,这是修订版:

在此处输入图片说明


我在Russ Lenth发布他的图表后的几分钟内发布了自己的图表。我没看过他,否则我不会贴我的。
Harvey Motulsky 2014年

我发现在估计中(线性线性)回归结果与log()相比更强。Y
Alexis 2014年

9
该图形展示了一个可视化选择不佳的效果的有趣示例:通过缩小长宽比并将y轴扩展到所需的两倍以上,该软件会自动抑制任何垂直散射的视觉效果,观众很难看清任何东西。这就是为什么一个好的探索,尽管以图形表示为指导,但必须(a)使用合适的可视化方法来揭示而不是抑制数据行为,并且(b)通过其他分析来支持它们(例如,@ Glen_b的帖子中所示) 。
ub

对于问题中的Y范围,对数基数2将是更简单的选择,以使Y轴的值具有合理的范围。它还会阻止上限范围1和1,000的合适值与当前数据不符。
安迪W

1

好吧,你是对的,关系很弱,但不为零。我想肯定。但是,不要猜测,只需运行简单的线性回归(OLS回归)并找出答案!那里您将得到xxx的斜率,该斜率告诉您关系是什么。是的,您的确有可能使结果有偏差的异常值。可以解决。您可以使用库克距离或创建杠杆图来估计异常值对关系的影响。

祝好运


是什么让您认为它们是真实的异常值,而不是DGP是非线性的?
2014年

好吧,我想可能也是这种情况。但是很难说,点是如此分散。
HelgiGuðmundsson2014年

为什么要假设OLS具有线性关系?非参数回归FTW!:)
Alexis 2014年

1
@Alexis强调必须通过域理论或模型检查证明诸如线性之类的假设是正确的。但是,我认为在不仔细考虑为什么会出现这样的值的情况下彻底删除异常是统计分析中非常常见的错误。
abaumann 2014年

是的,没有合理的理由(例如错误的价值)就无法删除异常值。但是,转换可以帮助调整价值的分布,使其更合适,并减少异常值。是的,我同意,我认为在没有正当理由的情况下删除异常值是很普遍的。
HelgiGuðmundsson2014年

1

通过查看X / Y数据点的方向及其散布,您已经对问题提供了一些直觉。简而言之,您是正确的。

在形式上,方向可以称为相关符号,而色散可以称为方差。这两个链接将为您提供有关如何解释两个变量之间的线性关系的更多信息。


0

这是家庭作业。因此,您的问题的答案很简单。在X上对Y进行线性回归,您将得到如下所示:

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

因此,t统计量对X变量具有99%的置信度。因此,您可以将变量声明为具有某种关系。

它是线性的吗?添加变量X2 =(X-mean(X))^ 2,然后再次回归。

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

X处的系数仍然很重要,但X2则没有。X2代表非线性。因此,您声明该关系似乎是线性的。

以上是家庭作业。

在现实生活中,事情更加复杂。想象一下,这是关于一班学生的数据。Y-卧推(以磅为单位),X-时间(以分钟为单位),在卧推之前屏气。我要问学生的性别。只是为了好玩,让我们添加另一个变量Z,并假设对于所有Y <60,Z = 1(女孩),而当Y> = 60时Z = 0(男孩)。使用三个变量运行回归:

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

发生了什么?!X和Y之间的“关系”已经消失!哦,由于变量,性别混杂,看来这种关系是虚假的。

这个故事的寓意是什么?您需要知道什么数据才能“解释”“关系”,甚至首先要建立关系。在这种情况下,当我被告知有关学生体育锻炼的数据时,我会立即询问他们的性别,甚至在不获取性别变量的情况下也不会费心分析数据。

另一方面,如果要求您“描述”散点图,那么一切都会进行。相关性,线性拟合等。对于您的家庭作业,上面的前两个步骤应该足够了:查看X的系数(关系),然后查看X ^ 2(线性)。确保去除X变量的平均值(减去均值)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.