Answers:
许多实验室论文,尤其是仪器测试实验,都将这种x应用于y回归。
他们认为,通过实验中的数据收集,可以控制y条件,并且可以从仪器读数中获得x(在其中引入一些误差)。这是实验的原始物理模型,因此x〜y + error更合适。
为了最大程度地减少实验误差,有时将y控制在相同条件下,然后对x进行多次测量(或重复进行实验)。此过程可以帮助您了解其背后的逻辑并更清楚地发现x〜y + error。
通常情况下,不同的分析会回答不同的问题。这两个和可能是有效的在这里,你只是想确保你的分析要回答的问题相匹配。(有关这些方面的更多信息,您可能想在这里阅读我的答案:X上的Y上的线性回归和Y上的X上的线性回归有什么区别?)X 上 ÿ
没错,如果您要做的就是在已知值的情况下预测最可能的值,则可以回归。但是,如果您想了解这些度量之间的关系,则可能要使用变量误差方法,因为您认为中存在度量误差。 X Ÿ 在 X X
另一方面,回归(并假设完全没有错误-所谓的黄金标准))使您可以研究的测量属性。例如,您可以通过评估函数是直线还是曲线来确定当真实值增加(或减少)时仪器是否变得有偏差。 Y X
在尝试了解测量仪器的属性时,了解测量误差的性质非常重要,这可以通过回归来完成。例如,当检查均方差时,您可以确定测量误差是否根据构造的真实值水平变化。通常情况下,仪器在其范围的极限处的测量误差要比在其适用范围的中间(即其“最佳点”)的误差大,因此您可以确定它,或者确定最合适的测量误差范围是。您也可以估算金额Y仪器的测量误差与均方根误差(残留标准偏差)的关系;当然,这是假定为同质的,但是您也可以通过将平滑函数(如样条曲线)拟合到残差来获得上不同点的估计值。
考虑到这些考虑因素,我猜想更好,但这当然取决于您的目标。
预测与预报
是的,您是正确的,当您将其视为预测问题时,Y-on-X回归将为您提供一个模型,这样,在给定仪器测量值的情况下,您无需进行实验室操作即可对准确的实验室测量值进行无偏估计。 。
这似乎违反直觉,因为错误结构不是“真实的”结构。假设实验室方法是无金标准的错误方法,那么我们“知道”真正的数据生成模型是
明确地说,在不失一般性的前提下,我们可以让
仪器分析
向您提出此问题的人显然不希望上面的答案,因为他们说X-on-Y是正确的方法,那么为什么他们会想要呢?他们很可能正在考虑了解仪器的任务。正如文森特(Vincent)的答案中所讨论的那样,如果您想了解他们希望仪器的性能,则X-on-Y是可行的方法。
回到上面的第一个方程:
收缩率
。然后得出诸如均值回归和经验贝叶斯之类的概念。
R中的示例 了解此处发生的情况的一种方法是制作一些数据并尝试使用这些方法。下面的代码将X-on-Y与Y-on-X进行了预测和校准,您可以很快地看到X-on-Y对预测模型不利,但是是正确的校准过程。
library(data.table)
library(ggplot2)
N = 100
beta = 0.7
c = 4.4
DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]
YonX = DT[, lm(Y~X)] # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)] # X = beta_1 Y + beta_0 + epsilon
YonX.c = YonX$coef[1] # c = alpha_0
YonX.m = YonX$coef[2] # m = alpha_1
# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1
XonY.c = -XonY$coef[1]/XonY$coef[2] # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2] # m = 1/ beta_1
ggplot(DT, aes(x = X, y =Y)) + geom_point() + geom_abline(intercept = YonX.c, slope = YonX.m, color = "red") + geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")
# Generate a fresh sample
DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]
DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]
cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
# Generate lots of samples at the same Y
DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]
DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]
cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")
两条回归线绘制在数据上
然后针对新样本的两个拟合值测量Y的平方误差总和。
> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction: 77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction: 183.0144
或者,可以以固定的Y(在这种情况下为4)生成样本,然后取这些估计值的平均值。现在,您可以看到X上的Y预测变量未得到很好的校准,其期望值远低于Y。X上的X上预测变量得到了很好的校准,其期望值接近Y。
> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4: 1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: 3.465205
在密度图中可以看到两个预测的分布。
这取决于您对普通最小二乘法的X方差和Y方差的假设。如果Y是唯一的方差源,而X的方差为零,则使用X来估计Y。如果假设是相反的话(X具有唯一的方差,而Y具有零的方差),则可以使用Y来估计X。
如果假设X和Y都具有方差,则可能需要考虑Total Least Squares。
在此链接上对TLS进行了很好的描述。本文面向交易,但第3节在描述TLS方面做得很好。
编辑1(09/10/2013)========================================= ======
我最初以为这是某种家庭作业问题,因此我对OP问题的“答案”并没有具体的了解。但是,在阅读了其他答案之后,看起来可以更详细一点了。
引用OP的部分问题:
“...。水平也使用非常精确的实验室程序进行测量。...”
上面的陈述说,有两种测量,一种来自仪器,另一种来自实验室程序。该声明还暗示,与仪器的差异相比,实验室程序的差异较小。
OP的问题的另一句话是:
“...。实验室程序度量由y .....表示。”
因此,从以上两个陈述来看,Y具有较低的方差。因此,最不容易出错的技术是使用Y来估计X。“提供的答案”是正确的。
[self-study]
标签。