双重转换响应后,在和变量之间实现了很强的线性关系。该模型是 ,但我把它转化为 将从.19提高到.76。
显然,我对这种关系做了一些体面的手术。谁能讨论这样做的陷阱,例如过度转换的危险或可能违反统计原则的危险?
双重转换响应后,在和变量之间实现了很强的线性关系。该模型是 ,但我把它转化为 将从.19提高到.76。
显然,我对这种关系做了一些体面的手术。谁能讨论这样做的陷阱,例如过度转换的危险或可能违反统计原则的危险?
Answers:
您实际上无法比较前后,因为Y的潜在变异性是不同的。因此,从R 2的变化来看,您从字面上不会感到任何安慰。这告诉您在比较这两种模型时没有任何价值。
两种模型在几种方面有所不同,因此它们的含义也有所不同-他们假设关系的形状和误差项的可变性(当考虑和X的关系时)有非常不同的事物。因此,如果您对建模Y感兴趣(如果本身很有意义),请为此生成一个很好的模型。如果您对建模感兴趣√(/ √是有意义的),为此生成一个好的模型。如果 √带有含义,然后为此做一个很好的模型。但是,以可比较的规模比较任何竞争模型。不同反应的根本无法比较。
如果您只是尝试不同的关系,以期找到一个具有高的变换-或任何其他“良好拟合”的度量-您可能要进行的任何推断的性质都会受到存在的影响搜索过程。
估计值倾向于偏离零,标准误差将太小,p值将太小,置信区间将太窄。平均而言,您的模型看起来“太好”(从某种意义上说,与样本内行为相比,样本外行为将令人失望)。
为避免这种过度拟合,如果可能,您需要对数据的不同子集进行模型识别和估计(对第三部分进行模型评估)。如果对随机抽取的许多数据“重复”重复这种过程,则可以更好地了解结果的可重复性。
这里有很多关于这些问题的相关文章:值得尝试一些搜索。
(如果您有先验的理由选择特定的转换,那就是另一个问题。但是,在转换空间中寻找合适的东西会带来各种“数据监听”类型的问题。)
比@Glen_b识别的问题更大的问题。
set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)
我得到的为0.49,P值为5.5 × 10 − 16。
等式两边都有
@Peter的示例包含两个元素,解开它们可能很有用:
(1)模型错误指定。型号
和
,在哪里 &,不能都成立。如果根据对方的响应重新表达对方,则它们的参数将变为非线性,并带有异方差错误。
如果被假定为高斯随机变量独立的X,那么这是模型1的特殊情况,其中β 1 = 0,和你不应该使用型号2.但同样,如果w ^被假定为高斯随机变量独立于Z,您不应该使用模型1。任何对一个模型而不是另一个模型的偏爱都必须来自实体理论或它们对数据的适应性。
(2)回应的转变。如果您知道 &X是独立的高斯随机变量,为什么W&Z之间的关系仍然会让您感到惊讶,或者您称其为虚假的?W的条件期望值可以用delta方法近似:
确实是 。
通过示例...
set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
Aldrich(2005),“ Pearson和Yule中的相关性真实和虚假”,《统计科学》,第10卷,第4期提供了关于这些问题的有趣历史观点。