当比例是自变量时,转换比例的最合适方法是什么?


12

我以为我理解了这个问题,但是现在我不太确定,我想在继续之前先与其他人核实。

我有两个变量,XYY是一个比率,并且不受0和1的限制,并且通常呈正态分布。X是一个比例,以0和1为界(从0.0到0.6)。当我运行的线性回归时Y ~ X,我发现,它们XY线性关系显着。到现在为止还挺好。

但是后来我进一步调查,开始认为也许XY的关系可能比线性关系更曲线。对我来说,它看起来像的关系X,并Y可能接近Y ~ log(X)Y ~ sqrt(X)或者Y ~ X + X^2,或者类似的东西。我有经验上的理由认为该关系可能是曲线关系,但没有理由假设任何一种非线性关系都可能比其他任何一种更好。

我从这里有几个相关的问题。首先,我的X变量采用四个值:0、0.2、0.4和0.6。当我对这些数据进行对数或平方根转换时,这些值之间的间距会失真,因此0值与所有其他值的距离要远得多。由于缺乏更好的询问方式,这就是我想要的吗?我认为不是,因为根据接受的失真程度,我得到的结果非常不同。如果这不是我想要的,应该如何避免?

其次,要对这些数据进行对数转换,我必须在每个X值上加上一些数量,因为您不能采用0的对数。当我增加非常小的数量(例如0.001)时,我会得到非常大的失真。当我添加较大的数量(例如1)时,失真很小。是否有“正确的”数量要添加到X变量中?还是在变量中添加任何内容X替代选择替代转换(例如,立方根)或模型(例如,逻辑回归)是否不合适?

在这个问题上我几乎找不到的东西让我觉得我应该谨慎行事。对于其他R用户,此代码将创建一些结构类似于我的数据。

X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

您说Y是一个比例,但是在您的数据中它在6到10之间?

是的,我在上面固定了它-这是一个比率,而不是一个比率。
Bajcz

Answers:


13

有关转换比例的主要问题(我将使用作为符号,与您的表示法类似但不相同)允许一些一般性注释。x

在下面的内容中,我认为转换协变量比例(预测变量,自变量)的主要动机是提高关系线性的近似度,或者在探索性模式下以图形方式更清晰地了解形状或确实存在任何关系。通常,协变量是否(例如)近似正态分布本身并不重要。(比例与指标变量值距离不太远它们永远不能正态分布,比例也必定是有界的。)0,1

如果比例可以达到精确的零或精确的零,则必须为这些限制定义一个转换,这显然排除了,因为是不确定的。除了理想的形状,理想情况下还需要一些实质性的(科学的,实用的)证明,但是缺少一些简单的分析得出的结论对的值非常敏感,正如您所暗示的那样。 log 0 log x + c clogxlog0log(x+c)c

使用以为底的对数可以更容易地看到这一点,因此暂时考虑以便将映射到。c = 10 k log 10x + 10 kx = 0 k10c=10klog10(x+10k)x=0k

因此,将映射到,映射到约,而将映射到,映射到仅一个大于的斯米德根。x = 0 0 x = 1 0.301 k = 3 c = 0.001 x = 0 3 x = 1 0k=0,c=1x=00x=10.301k=3,c=0.001x=03x=10

类似地,无论什么意思都将映射到相同的极限,而将映射为越来越好的近似值则映射到。0 X = 1 0k=6,9,0x=10

因此,下限以越来越小的附加常数向外拉伸,而上限则保持不变。因此,这样的变换可以极大地扩展范围的下部,甚至从或接近非常小的值产生离群值。0c0

简而言之,暗示这一点的人们大概想像(现在到您喜欢的任何基数)的行为应该与对于小行为非常相似,这对于大显然是正确的,但对于小根本不成立。。否则放,的陡斜坡的函数关系为能很难在这里下手了。log x c x x log x x x 0log(x+c)logxcxxlogxxx0

似乎最好集中在附近且(出于其他但相关的原因)也在附近逐渐变化的变换。x = 1x=0x=1

平方根,立方根和其他幂对于定义得很好并且在需要拉伸接近值时通常会有所帮助。但是这些转换是众所周知的,因此我在这里更多地关注另一种可能性。 X = 0 1 0xpx=0,10

由JW Tukey(探索性数据分析,雷丁,马萨诸塞州:Addison-Wesley,1977年)推广的折叠式电源家族是一种可能性,并且是 。尽管没有强制选择允许使用简单的起义名称的能力,但选择(折叠根)和(折叠立方根)似乎是该家族中最有用的成员。 p = 1 / 2 p = 1 / 3xp(1x)pp=1/2p=1/3

该族类似于熟悉的logit转换并且实际上logit是极限情况,因为趋于。一个关键的区别是折叠功率定义为和。p 0 X = 0 1个p 0logit x=logxlog(1x)p0x=0,1p0

折合幂(包括现在的对数)将和偏斜附近的极端情况对称地处理,并将其作为反S形曲线绘制(下面的一些图),将加性和乘性行为混合在一起,回荡频繁的定性(如果不是物理,生物学,经济等)潜在现象的事实101

  • 从到的差异可以说是“大不了”(当然,仅变化,但它也会翻倍)0.02 x 0.010.010.02x0.01

  • 从到的差异也可能是“大不了的”(当然,仅变化,但“不包含”的分数也减半)0.99 x 0.01 1 x0.980.99x0.011x

  • 从到的差异可能是“较小的交易”(当然,也会变化,但是比例变化要小得多)0.51 x 0.010.500.51x0.01

这可能是最容易想到的,可以想象一下一些潜在的动态:有识字的人们所占的比例越来越大,需要走很大的路才能走,先加速后再减速,因为它接近普遍识字的渐近线。因此,时间曲线可能类似于增加或减少的对数。逐渐接近和比例的事实自然是logit和相似比例响应模型的多种动机之一;尽管我们在这里关注比例协变量,但在这里S形也是有用的。101

x=0,1

log(x+0.001)

我想指出的两点是

  1. log(x+c)x

  2. 对于您的示例数据,我尝试进行的任何转换似乎都无济于事。

同时,其他可能性远未耗尽。(值得注意的是,我没有尝试平方根或立方根,而是强调在许多其他问题中,这些问题可能是显而易见的和严重的候选人。)

01

在此处输入图片说明

R2=3.7=0.994

在此处输入图片说明

y610

编辑:原始数据可以在此处绘制,因为OP短暂发布了数据,但随后将其删除。

这里使用折线的其他线程包括

转换比例数据:arcsin平方根不足时

回归:具有低R平方和高p值的散点图

绘制高度偏斜的数据集


很好的答案,非常彻底。我想我应该说我Y是一个比率而不是一个比率,这可能是一个相当大的差异,因此,对您来说,这是一件好事。
巴伊奇

比例在我定义时是有界的。感谢您的澄清,这对我的分析没有任何影响(这就是为什么我将其标记为一个很小的细节)。
尼克·考克斯

2
进一步说明:原则上,您可以使用样条曲线或平滑器来检查曲率等,但是仅使用4个不同级别的预测变量并不容易。我会考虑对您的数据进行分位数回归。
Nick Cox

x2 1 0 X = 0 1x310x=0,1
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.