在这种情况下,对y的x回归明显好于对y的y吗?


10

在一个10人的随机样本上监测用于测量人血液中葡萄糖水平的仪器。还可以使用非常准确的实验室程序来测量水平。仪器度量用x表示。实验室程序度量用y表示。

我个人认为x上的y更正确,因为其目的是使用仪器读数来预测实验室读数。x上的y最小化了此类预测的误差。

但是提供的答案是y上的x。


2
欢迎来到@Neo网站。如果此问题是由课堂/教科书练习所激发的,请添加[self-study]标签。
gung-恢复莫妮卡

Answers:


6

许多实验室论文,尤其是仪器测试实验,都将这种x应用于y回归。

他们认为,通过实验中的数据收集,可以控制y条件,并且可以从仪器读数中获得x(在其中引入一些误差)。这是实验的原始物理模型,因此x〜y + error更合适。

为了最大程度地减少实验误差,有时将y控制在相同条件下,然后对x进行多次测量(或重复进行实验)。此过程可以帮助您了解其背后的逻辑并更清楚地发现x〜y + error。


+1到目前为止,我真的很想知道答案,这可能是解决原始帖子的最佳方法。几乎可以肯定,这个问题是由了解仪器而不是校准代理引起的。如果每个Y都只有一个X测量值,那么我很确定(除去wuber的评论),Y-on-X是正确的方法。虽然多个X可以解决这个问题,但是X-on-Y仍然是正确的(但不可用于预测Y)。
Korone 2013年

你有问题,@Corone:如果两个X VS Y和Y VS X是正确的,我们都知道你会得到明显不同的拟合线,只要小于。您会选择这两条线中的哪一条,并在什么基础上选择?正如Vincent解释的那样,这一难题的正确解决方案是:在我们的测量误差概念中存在不对称性:仪器的测量误差可观;假定实验室没有明显的错误。普通回归程序假定X没有错误,并且所有错误都在Y中,因此可以解决它。 1R21
ub

@胡言乱语他们都是正确的,但回答不同的问题。通过多次X测量,Y-on-X甚至无法解决它应该回答的问题。我的评论虽然变得愚蠢,但还是会编辑我的答案
Korone

6

通常情况下,不同的分析会回答不同的问题。这两个和可能是有效的在这里,你只是想确保你的分析要回答的问题相匹配。(有关这些方面的更多信息,您可能想在这里阅读我的答案:X上的Y上的线性回归和Y上的X上的线性回归有什么区别?X  上  ÿY on XX on Y

没错,如果您要做的就是在已知值的情况下预测最可能的值,则可以回归。但是,如果您想了解这些度量之间的关系,则可能要使用变量误差方法,因为您认为中存在度量误差。 X Ÿ  在  X XYXY on XX

另一方面,回归(并假设完全没有错误-所谓的黄金标准))使您可以研究的测量属性。例如,您可以通过评估函数是直线还是曲线来确定当真实值增加(或减少)时仪器是否变得有偏差。 Y XX on YYX

在尝试了解测量仪器的属性时,了解测量误差的性质非常重要,这可以通过回归来完成。例如,当检查均方差时,您可以确定测量误差是否根据构造的真实值水平变化。通常情况下,仪器在其范围的极限处的测量误差要比在其适用范围的中间(即其“最佳点”)的误差大,因此您可以确定它,或者确定最合适的测量误差范围是。您也可以估算金额YX on Y仪器的测量误差与均方根误差(残留标准偏差)的关系;当然,这是假定为同质的,但是您也可以通过将平滑函数(如样条曲线)拟合到残差来获得上不同点的估计值。 Y

考虑到这些考虑因素,我猜想更好,但这当然取决于您的目标。 X on Y


YX

@whuber变量中的错误不适用于预测。如果您希望了解关系大小,但在X和Y中存在测量误差,则变量错误很有用。对于预测,只要在训练集中以相同的方式收集X,X就可以“无误地知道”。预测集。
Korone 2013年

@Corone您是正确的,变量错误不利于预测,但是据我所知,这并不是推荐的方法。的确,这正是为什么一个人真正需要将仪器退回实验室(仅使用OLS)而不是相反的原因。请查阅我在对此线程的另一条评论中引用的Draper&Smith参考。我依靠第二版的1.7节。
ub

@Corone,您对预测/变量错误是正确的,但这与我想说的不完全一样。我将尝试思考一种更好的措辞方式。
gung-恢复莫妮卡

4

预测与预报

是的,您是正确的,当您将其视为预测问题时,Y-on-X回归将为您提供一个模型,这样,在给定仪器测量值的情况下,您无需进行实验室操作即可对准确的实验室测量值进行无偏估计。 。

E[Y|X]

这似乎违反直觉,因为错误结构不是“真实的”结构。假设实验室方法是无金标准的错误方法,那么我们“知道”真正的数据生成模型是

Xi=βYi+ϵi

YiϵiE[ϵ]=0

E[Yi|Xi]

Yi=Xiϵβ

Xi

E[Yi|Xi]=1βXi1βE[ϵi|Xi]

E[ϵi|Xi]ϵX

明确地说,在不失一般性的前提下,我们可以让

ϵi=γXi+ηi

E[ηi|X]=0

YI=1βXiγβXi1βηi

YI=1γβXi1βηi

ηββσ

YI=αXi+ηi

β

仪器分析

向您提出此问题的人显然不希望上面的答案,因为他们说X-on-Y是正确的方法,那么为什么他们会想要呢?他们很可能正在考虑了解仪器的任务。正如文森特(Vincent)的答案中所讨论的那样,如果您想了解他们希望仪器的性能,则X-on-Y是可行的方法。

回到上面的第一个方程:

Xi=βYi+ϵi

E[Xi|Yi]=YiXβ

收缩率

YE[Y|X]γE[Y|X]Y。然后得出诸如均值回归和经验贝叶斯之类的概念。

R中的示例 了解此处发生的情况的一种方法是制作一些数据并尝试使用这些方法。下面的代码将X-on-Y与Y-on-X进行了预测和校准,您可以很快地看到X-on-Y对预测模型不利,但是是正确的校准过程。

library(data.table)
library(ggplot2)

N = 100
beta = 0.7
c = 4.4

DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]

YonX = DT[, lm(Y~X)]   # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)]   # X = beta_1 Y + beta_0 + epsilon


YonX.c = YonX$coef[1]   # c = alpha_0
YonX.m = YonX$coef[2]   # m = alpha_1

# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1

XonY.c = -XonY$coef[1]/XonY$coef[2]      # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2]  # m = 1/ beta_1

ggplot(DT, aes(x = X, y =Y)) + geom_point() +  geom_abline(intercept = YonX.c, slope = YonX.m, color = "red")  +  geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")

# Generate a fresh sample

DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]

DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]

cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])

# Generate lots of samples at the same Y

DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]

DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]

cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])

ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")

两条回归线绘制在数据上

在此处输入图片说明

然后针对新样本的两个拟合值测量Y的平方误差总和。

> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction:  77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction:  183.0144

或者,可以以固定的Y(在这种情况下为4)生成样本,然后取这些估计值的平均值。现在,您可以看到X上的Y预测变量未得到很好的校准,其期望值远低于Y。X上的X上预测变量得到了很好的校准,其期望值接近Y。

> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4:  1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4:  3.465205

在密度图中可以看到两个预测的分布。

在此处输入图片说明


YXX

3
Y=β0+β1X+ϵVar(ϵ)=σ2.X=(Yβ0ϵ)/β1X=α0+α1Y+δVar(δ)=σ2α12σ2

1
β

2
Y可能是整个人的随机变量,但是对于任何给定的人,Y都是要估计的参数。将X上的Y回归可以将Y的每个估计值缩小到组均值,这可以减少人的均方误差,但会产生系统上的偏见,这可能出于道德或法律原因而无法接受。在Y上回归X给出的信息可用于构建每个人的Y的无偏置信区间,但是这些区间趋向于变宽,例如图中的蓝色区域,而在X上回归Y的预测区间更窄但有偏差,像红色。
Ray Koopman 2013年

1
@RayKoopman这是一种很棒的放置方式!是的- Y于X大约是在许多不同的伊苏获得平均的最佳预测,而校准大约是公平和公正的个人Y.
Korone

2

这取决于您对普通最小二乘法的X方差和Y方差的假设。如果Y是唯一的方差源,而X的方差为零,则使用X来估计Y。如果假设是相反的话(X具有唯一的方差,而Y具有零的方差),则可以使用Y来估计X。

如果假设X和Y都具有方差,则可能需要考虑Total Least Squares

在此链接上对TLS进行了很好的描述。本文面向交易,但第3节在描述TLS方面做得很好。

编辑1(09/10/2013)========================================= ======

我最初以为这是某种家庭作业问题,因此我对OP问题的“答案”并没有具体的了解。但是,在阅读了其他答案之后,看起来可以更详细一点了。

引用OP的部分问题:

“...。水平也使用非常精确的实验室程序进行测量。...”

上面的陈述说,有两种测量,一种来自仪器,另一种来自实验室程序。该声明还暗示,与仪器的差异相比,实验室程序的差异较小。

OP的问题的另一句话是:

“...。实验室程序度量由y .....表示。”

因此,从以上两个陈述来看,Y具有较低的方差。因此,最不容易出错的技术是使用Y来估计X。“提供的答案”是正确的。


1
XY

不,不应根据方差的位置来选择回归-而是应根据您要回答的问题进行回归。如果使用TLS为给定X的Y建立预测模型,那么您是错误的。TLS和类似的变量误差模型都是关于了解底层变量/过程之间的真实关系的,而与预测
无关

1
@Corone尽管您正确地决定了目标是统计程序的选择,但该程序也必须适用于概率模型(“方差在哪里”)。如果您的目的是根据高方差仪器读数来预测实验室读数,则一定要选择适合该程序的程序:但是该程序不是使用普通最小二乘拟合及其方差估计来进行预测的。
ub

1
@Corone-我同意回归技术应基于您要回答的问题,但是所选技术包含有关变量方差的假设。如果选择的方差假设与您的模型概念不符,则说明选择了错误的技术。这就是为什么我列出了三种可能性(零个X方差来估计Y;零个Y方差来估计X;或者非零个X和Y方差)。
bill_080
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.