转换数据时要避免的陷阱?


15

双重转换响应后,在Xÿ变量之间实现了很强的线性关系。该模型是 ÿX ,但我把它转化为 ÿXX[R2从.19提高到.76。

显然,我对这种关系做了一些体面的手术。谁能讨论这样做的陷阱,例如过度转换的危险或可能违反统计原则的危险?


1
从你所拥有的,仅从代数来看,它看起来就像YX2。您可以发布数据或显示图表吗?是否有科学理由期待ÿ=0时,X=0
尼克·考克斯

1
@NickCox:我认为YX是非常规符号EY=β0+β1X ; 也许OP是讲R而不是数学(当然不建议这样做)。
Scortchi-恢复莫妮卡

@Scortchi我怕你是对的。看到数据都会有帮助。
Nick Cox 2014年

在这种情况下,0 X表示0 Y,因为Y导致死亡,而X是所有驾驶员所驱动的总KM。
2014年

2
@AaronHall该方程式不一定是无用的,因为(乘以X,在某些情况下可能是一个可能合理的模型)。但是,问题中给出的方程形式的R2用处不大,您无法将其与不同尺度下的拟合值进行比较。(顺便说一句,如果那是您对我的回答的ÿ=β0X+β1X+Xϵ[R2
不满

Answers:


20

您实际上无法比较前后,因为Y的潜在变异性[R2ÿ是不同的。因此,从R 2的变化来看,您从字面上不会感到任何安慰。这告诉您在比较这两种模型时没有任何价值。[R2

两种模型在几种方面有所不同,因此它们的含义也有所不同-他们假设关系的形状和误差项的可变性(当考虑X的关系时)有非常不同的事物。因此,如果您对建模Y感兴趣ÿXÿ(如果本身很有意义),请为此生成一个很好的模型。如果您对建模感兴趣ÿ(/ÿ是有意义的),为此生成一个好的模型。如果ÿÿ/X带有含义,然后为此做一个很好的模型。但是,以可比较的规模比较任何竞争模型。不同反应的根本无法比较。[R2

如果您只是尝试不同的关系,以期找到一个具有高的变换-或任何其他“良好拟合”的度量-您可能要进行的任何推断的性质都会受到存在的影响搜索过程。[R2

估计值倾向于偏离零,标准误差将太小,p值将太小,置信区间将太窄。平均而言,您的模型看起来“太好”(从某种意义上说,与样本内行为相比,样本外行为将令人失望)。

为避免这种过度拟合,如果可能,您需要对数据的不同子集进行模型识别和估计(对第三部分进行模型评估)。如果对随机抽取的许多数据“重复”重复这种过程,则可以更好地了解结果的可重复性。

这里有很多关于这些问题的相关文章:值得尝试一些搜索。

(如果您有先验的理由选择特定的转换,那就是另一个问题。但是,在转换空间中寻找合适的东西会带来各种“数据监听”类型的问题。)


感谢Glen的回复。我进行此转换的原因是因为它是唯一没有给我带来偏差残差的方法。我尝试了标准的y / x,log(y),sqrt(y)以及它们的各种组合。所有这些导致倾斜的残留图。只有进行了两阶段转换后,我才能获得随机出现的残差。但是,您指出该模型对于样本外数据可能无用,因为我可能刚刚拟合了数据,对吗?
2014年

好吧,是的,但是在查看数据时任何形式的模型规范都是一个问题,因此它经常发生。在许多情况下很难避免,这是可以进行样品分离的地方。(交叉验证可能是这种情况下的便捷工具。)
Glen_b -Reinstate Monica 2014年

了解投票否决的原因将很有用。答案有什么问题?也许可以改善。(如果无法改善,为什么要
投票

1
@Glen_b:但是棘手的是交叉验证一个定义不明确的过程-在每一次折叠中,您都需要重复检查诊断程序的过程,在不喜欢它们时考虑进行另一种转换,然后尝试尝试,依此类推。
Scortchi-恢复莫妮卡

1
@Scortchi是的,如果没有通过一些简单的规则从已知的候选库中选择转换,则可能是不可能的。
Glen_b-恢复莫妮卡2014年

16

比@Glen_b识别的问题更大的问题。

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

我得到的为0.49,P值为5.5 × 10 16R25.5×1016

等式两边都有X


2
不知道没有充分的先验理由以一种方式而不是另一种方式表达模型是一个不同的问题。如果让Z=w ^=ÿX那么您可以说第一个模型(ž=X)拥有 Z ^ 2对等式的两边。ÿXž2
Scortchi-恢复莫妮卡

4
如果Zw ^ž是随机噪声,回归X给人以强烈的关系。如果不考虑变量甚至意味着什么,那么标记一个回归虚假而不是另一个回归虚假的不对称性呢?这种事情在Pearson和Yule(Aldrich(1995))之间争论不休,而我和Yule在一起:虚假的不是相关性而是基于该相关性的因果关系的主张。ÿX
Scortchi-恢复莫妮卡

1
是的,但在这里,开始与X和Y不是么无论哪个变量回归,可以这么说,变量?
彼得·弗洛姆

2
除了@Glen_b在他的第一句话中指出的以外,看不到它为什么应该这样做,如果您的目标是预测,那么确定模型的系数很高Y就不足为奇了。当然,如果您对错误项的外观有深刻的了解,则一种模型比另一种模型更容易处理。W
Scortchi-恢复莫妮卡

4
您对W&Z提出了一个很好的观点,@Scortchi,但在我看来,您考虑的变量是什么,以及为了获得更好的模型而创建的变量,都非常重要。在实质性问题的上下文中,哪些是实变量取决于X等的含义。我从文字中推断出OP希望了解b / t X和Y的关系,并创建了W&Z以改善模型拟合。也就是说,在这种具体情况下,在我看来,彼得是正确的,您无法尝试通过在两侧都放置X来改进模型。
gung-恢复莫妮卡

4

@Peter的示例包含两个元素,解开它们可能很有用:

(1)模型错误指定。型号

ÿ一世=β0+β1X一世+ε一世(1)

w一世=γ0+γ1ž一世+ζ一世(2)

,在哪里 w一世=ÿ一世X一世,不能都成立。如果根据对方的响应重新表达对方,则它们的参数将变为非线性,并带有异方差错误。ž一世=X一世

w一世=β0ž一世2+β1+ε一世ž一世2(1)

ÿ一世=γ0X一世+γ1X一世+ζ一世X一世2(2)

如果被假定为高斯随机变量独立的X,那么这是模型1的特殊情况,其中β 1 = 0,和你不应该使用型号2.但同样,如果w ^被假定为高斯随机变量独立于ZÿXβ1=0w ^ž,您不应该使用模型1。任何对一个模型而不是另一个模型的偏爱都必须来自实体理论或它们对数据的适应性。

(2)回应的转变。如果您知道 X是独立的高斯随机变量,为什么WZ之间的关系仍然会让您感到惊讶,或者您称其为虚假的?W的条件期望值可以用delta方法近似:ÿXw ^žw ^

ËÿX=Ëÿžβ0+Varÿ8β03/2ž

确实是 ž

通过示例...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

在此处输入图片说明

在此处输入图片说明

ÿXwžwžžw

Aldrich(2005),“ Pearson和Yule中的相关性真实和虚假”,《统计科学》,第10卷,第4期提供了关于这些问题的有趣历史观点。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.