如何解释此散点图?


12

我有一个散布图,其样本大小等于x轴上的人数和y轴上的工资中位数,我试图找出样本量是否对工资中位数有影响。

这是情节:

在此处输入图片说明

我如何解释这个情节?


3
如果可以,我建议对两个变量进行转换。如果两个变量都不具有精确的零,请查看对数-对数比例
Glen_b -Reinstate Monica

@Glen_b抱歉,仅通过查看图表,我对您所说的术语不熟悉,您能否在两个变量之间建立关系?我可以猜测的是,对于不超过1000的样本量,没有任何关系,因为对于相同的样本量值,存在多个中值。对于大于1000的值,工资中位数似乎会下降。你怎么看 ?
2017年

我没有清楚的证据可以证明这一点,对我来说似乎很平坦。如果有明显的变化,可能是在样本量的下部。您有数据,还是只有图的图像?
Glen_b-恢复莫妮卡

4
如果将中位数视为n个随机变量的中位数,则有意义的是,中位数的变化会随着样本数量的增加而减小。这将解释情节左侧的大价差。
JAD

2
您的陈述“对于不超过1000的样本量没有关系,因为对于相同的样本量值,存在多个中位数”是不正确的。
彼得·弗洛姆

Answers:


9

“查找”表示您正在浏览数据。正式测试将是多余和可疑的。相反,应用标准探索性数据分析(EDA)技术来揭示数据中可能包含的内容。

这些标准技术包括重新表达残差分析鲁棒技术(EDA的“三个R”)和数据平滑,如John Tukey在其经典著作EDA(1977)中所述。我在Box-Cox的帖子中概述了如何进行其中的一些操作,例如对自变量进行转换?在线性回归,当它适合使用一个独立的变量而不是实际的值的日志?除其他外

结果是,可以通过更改为对数-对数轴(有效地重新表达两个变量),不太积极地平滑数据以及检查平滑的残差以检查可能遗漏的内容来看到很多东西,正如我将说明的那样。

这是显示的平滑数据-在检查了多个具有不同保真度的平滑后,似乎在平滑程度过多与过少之间做出了很好的折衷。它使用Loess(一种著名的鲁棒方法)(它不受垂直偏心点的严重影响)。

对数-对数散点图

垂直网格的步长为10,000。平滑度确实暗示了Grad_median样本量的一些变化:当样本量接近1000时,平滑度似乎下降了。(平滑度的末端不可靠-特别是对于较小的样本,样本中的采样误差预计会相对较大-所以不要软件对平滑区域绘制的(非常粗糙的)置信带支持了这种真实下降的印象:其“摆动”大于带的宽度。

为了查看此分析可能遗漏的内容,下图查看了残差。(这些是自然对数的差异,直接测量先前平滑数据之间的垂直差异。由于它们的数量很小,因此可以解释为成比例的差异;例如, 反映的数据值比相应的平滑值低约值。)20 0.220%

我们感兴趣的是(a)随样本大小的变化是否存在其他变化模式,以及(b)在样本大小的所有值之间响应的条件分布(点位置的垂直分布)是否合理地相似,或者它们的某些方面(例如它们的扩散或对称性)是否可能改变。

![图2残差图

这种平滑尝试比以前更加紧密地跟踪数据点。然而,它基本上是水平的(在置信带范围内,始终覆盖y值),这表明无法检测到进一步的变化。如果进行正式测试,则在中间附近的垂直分布的轻微增加(样本大小为2000到3000)不会显着,因此在这个探索阶段肯定不会引起太大影响。在任何单独的类别中,没有明显的,系统的偏离此总体行为的现象(按颜色区分,但不太好,我在此处未显示的图中分别对其进行了分析)。0.0

因此,这个简单的摘要:

样本数量接近1000时,工资中位数降低约10,000

充分捕获数据中出现的关系,并且似乎在所有主要类别中均保持一致。这是否重要-也就是说,当面对其他数据时是否会站起来-只能通过收集这些其他数据来评估。


对于那些想检查这项工作或进一步进行研究的人,这里是R代码。

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)

7

Glen_b建议您采用sample_size和工资中位数的对数,以查看重新缩放数据是否有意义。

我不同意您的看法,即样本量超过1000个后,工资中位数就会下降。我会更倾向于说根本没有关系。您的理论是否预测应该存在关系?

评估可能关系的另一种方法是使回归线适合数据。另外,您也可以使用最低曲线。将两条线都绘制到您的数据上,看看是否有什么事情可以解决(但是,我怀疑是否有任何过于实质性的内容)。


3
散点图与荟萃分析中使用的漏斗图非常相似。看到类似的例子。绘制漏斗​​带将更清楚地显示出是否存在任何关系,在此示例中可能会有一点正的关系。
安迪W

6

我也同意没有关系。我复制了原始散点图(左),并制作了glen_b建议的对数-对数散点图(右)。

在此处输入图片说明

看起来两者之间没有任何关系。对数转换后的数据之间的相关性较弱(Pearson R = -.13),并且无关紧要(p = .09)。根据您拥有多少额外的信息,也许有理由看到一些弱的负相关性,但这似乎有些绵延。我猜你看到的任何明显模式都是在这里看到的相同效果。

编辑:查看@famargar的图后,我意识到我已绘制了研究生样本数量与研究生中位数工资的关系图。我相信@sameed想要的样本大小VS 毕业生 -median工资,虽然它不是完全清楚。对于后者,我重现了@famargar的数字,即(),并且我们的图看起来相同。p = 0.98R=0.0022p=0.98


感谢您关注grad-median和grad-sample-size之间的关系;我对数字之间的差异深感困惑!
famargar

0

如第一个答案中所建议的那样,尝试线性回归将使您对这种关系有所了解。由于看起来您正在使用python plus matplotlib进行此绘图,因此与解决方案仅需一行代码。

您可以使用seaborn关节图,该图还将显示线性回归线,Pearson相关系数及其p值:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

在此处输入图片说明

如您所见,没有任何关联。查看最后一个图,似乎可以对数转换x变量。让我们尝试一下:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

在此处输入图片说明

您可以清楚地看到-是否进行对数转换-相关性很小,并且p值和置信区间都表示它在统计上没有意义。


3
条件分布严重偏斜的迹象表明这不是一个好方法。当您还观察到样本量分布的偏斜会导致少数最大的样本量控制回归中趋势的出现时,您将了解为什么其他人建议对数据进行初步转换。
ub

1
我并不是在猜测或猜测:问题中的情节清楚地表明了这些特征。另请参阅R Greg Stacey创建的图,该图通过应用建议的对数-对数转换来说明其完成的工作。
ub

我刚刚找到了数据并亲自进行了研究-请查看更新后的答案。
famargar

您的研究解决了我指出的两个问题:“无相关性”的出现在很大程度上是由条件条件响应的偏斜和高回归值的杠杆作用引起的。特别是,拟合线及其误差带都不值得信赖。
ub

请查看我刚刚添加的情节;我希望在上一次迭代中不要错过任何内容。
famargar

-1

该图展示了中心极限定理,样本之间的变异性随样本大小的增加而减小。这也是您期望的形状,例如薪水等严重偏斜的变量。


3
这些不是来自普通人群的独立样本。这使得CLT的相关性相当成问题。
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.