有关转换比例的主要问题(我将使用作为符号,与您的表示法类似但不相同)允许一些一般性注释。x
在下面的内容中,我认为转换协变量比例(预测变量,自变量)的主要动机是提高关系线性的近似度,或者在探索性模式下以图形方式更清晰地了解形状或确实存在任何关系。通常,协变量是否(例如)近似正态分布本身并不重要。(比例与指标变量值距离不太远它们永远不能正态分布,比例也必定是有界的。)0,1
如果比例可以达到精确的零或精确的零,则必须为这些限制定义一个转换,这显然排除了,因为是不确定的。除了理想的形状,理想情况下还需要一些实质性的(科学的,实用的)证明,但是缺少一些简单的分析得出的结论对的值非常敏感,正如您所暗示的那样。 log 0 log (x + c )clogxlog0log(x+c)c
使用以为底的对数可以更容易地看到这一点,因此暂时考虑以便将映射到。c = 10 k log 10(x + 10 k)x = 0 k10c=10klog10(x+10k)x=0k
因此,将映射到,映射到约,而将映射到,映射到仅一个大于的斯米德根。x = 0 0 x = 1 0.301 k = − 3 ,c = 0.001 x = 0 − 3 x = 1 0k=0,c=1x=00x=10.301k=−3,c=0.001x=0−3x=10
类似地,无论什么意思都将映射到相同的极限,而将映射为越来越好的近似值则映射到。0 X = 1 0k=−6,−9,0x=10
因此,下限以越来越小的附加常数向外拉伸,而上限则保持不变。因此,这样的变换可以极大地扩展范围的下部,甚至从或接近非常小的值产生离群值。0c0
简而言之,暗示这一点的人们大概想像(现在到您喜欢的任何基数)的行为应该与对于小行为非常相似,这对于大显然是正确的,但对于小根本不成立。。否则放,的陡斜坡的函数关系为能很难在这里下手了。log x c x x log x x x ↓ 0log(x+c)logxcxxlogxxx↓0
似乎最好集中在附近且(出于其他但相关的原因)也在附近逐渐变化的变换。x = 1x=0x=1
平方根,立方根和其他幂对于定义得很好并且在需要拉伸接近值时通常会有所帮助。但是这些转换是众所周知的,因此我在这里更多地关注另一种可能性。 X = 0 ,1 0xpx=0,10
由JW Tukey(探索性数据分析,雷丁,马萨诸塞州:Addison-Wesley,1977年)推广的折叠式电源家族是一种可能性,并且是
。尽管没有强制选择允许使用简单的起义名称的能力,但选择(折叠根)和(折叠立方根)似乎是该家族中最有用的成员。 p = 1 / 2 p = 1 / 3xp−(1−x)pp=1/2p=1/3
该族类似于熟悉的logit转换并且实际上logit是极限情况,因为趋于。一个关键的区别是折叠功率定义为和。p 0 X = 0 ,1个p ≠ 0logit x=logx−log(1−x)p0x=0,1p≠0
折合幂(包括现在的对数)将和偏斜附近的极端情况对称地处理,并将其作为反S形曲线绘制(下面的一些图),将加性和乘性行为混合在一起,回荡频繁的定性(如果不是物理,生物学,经济等)潜在现象的事实101
从到的差异可以说是“大不了”(当然,仅变化,但它也会翻倍)0.02 x 0.010.010.02x0.01
从到的差异也可能是“大不了的”(当然,仅变化,但“不包含”的分数也减半)0.99 x 0.01 1 − x0.980.99x0.011−x
从到的差异可能是“较小的交易”(当然,也会变化,但是比例变化要小得多)0.51 x 0.010.500.51x0.01
这可能是最容易想到的,可以想象一下一些潜在的动态:有识字的人们所占的比例越来越大,需要走很大的路才能走,先加速后再减速,因为它接近普遍识字的渐近线。因此,时间曲线可能类似于增加或减少的对数。逐渐接近和比例的事实自然是logit和相似比例响应模型的多种动机之一;尽管我们在这里关注比例协变量,但在这里S形也是有用的。101
x=0,1
log(x+0.001)
我想指出的两点是
log(x+c)x
对于您的示例数据,我尝试进行的任何转换似乎都无济于事。
同时,其他可能性远未耗尽。(值得注意的是,我没有尝试平方根或立方根,而是强调在许多其他问题中,这些问题可能是显而易见的和严重的候选人。)
01
R2=3.7=0.994
y610
编辑:原始数据可以在此处绘制,因为OP短暂发布了数据,但随后将其删除。
这里使用折线的其他线程包括
转换比例数据:arcsin平方根不足时
回归:具有低R平方和高p值的散点图
绘制高度偏斜的数据集