转换比例数据:arcsin平方根不足时


20

对于百分比/比例数据,是否有(更强的)替代arcsin平方根的变换?在我目前正在处理的数据集中,应用此转换后仍存在明显的异方差性,即残差与拟合值的关系图仍然是菱形。

编辑以回应评论:数据是实验参与者的投资决定,他们可能以10%的倍数投资捐赠基金的0-100%。我还使用序数逻辑回归分析了这些数据,但想了解有效的glm会产生什么。另外,我认为答案对将来的工作很有用,因为反正弦方根似乎被用作我领域的一种“千篇一律”的解决方案,而且我没有遇到任何采用的替代方法。


2
拟合值是多少?你的模特是什么?对于二项式,arcsin使(近似)方差稳定,但是如果比例接近0或1,则仍会产生“边缘”效应-因为正常部分会被截断。
概率

1
让我加倍讨论@probabilityislogic所说的内容,并询问数据的来源。问题中可能存在某种暗示着另一种转变或整个模型的事物,这可能更合适和/或可以解释。
JMS

1
@prob @JMS为什么我们不让我相信他对统计数据非常了解的OP首先尝试转换路线?然后,如果这不起作用,那么开始一个新的线程以减少问题的出现范围会很有成果。在这种情况下,您的评论将是适当的。
ub

1
反正弦平方根转换存在巨大问题,在有趣的标题为《反正弦为正弦
恢复莫妮卡

1
@mkt感谢您的参考,这已经直接进入下一学期关于广义线性模型的演讲。
弗雷亚·哈里森

Answers:


28

当然。John Tukey描述了EDA中的一系列(不断增加的,一对一的)转换。它基于以下思想:

  1. 能够按照参数控制将尾巴(朝0和1延伸)。

  2. 然而,到中间(靠近匹配原始(未转化的)值1/2),这使得转换更容易解释。

  3. 做出关于重新表达对称1/2. 即,如果p是重新表示为f(p),然后1p将被重新表示为f(p)

如果与任何单调递增函数开始g:(0,1)R在可微1/2可以调整它,以满足第二和第三标准:只要定义

f(p)=g(p)g(1p)2g(1/2).

分子是显式对称的(标准(3)),因为将p1p交换可以使减法相减,从而取反。地看到,(2)被满足时,请注意,分母是恰恰需要使因子f(1/2)=1. 回想一下,衍生物接近支持线性函数的函数的局部行为; 的斜率1=1:1,从而意味着f(p)p(加上常数1/2)当p是足够接近1/2. 这是在其中的原始值被感测“的中间附近相匹配。”

Tukey将此称为g的“折叠”版本。他的家庭由功率和对数变换g(p)=pλ其中,当λ=0,我们考虑g(p)=log(p)

让我们看一些例子。当λ=1/2,我们得到折叠的根部或“福鲁特,” f(p)=1/2(p1p)。当λ=0,我们有折叠对数,或“鞭打”f(p)=(log(p)log(1p))/4. 显然,这仅仅是的常数倍分对数变换,log(p1p)

lambda = 1、1 / 2、0和arcsin的图形

在该曲线图的蓝色线对应于λ=1,中间红线λ=1/2,且极端绿线到λ=0。虚线金线是反正弦变换,arcsin(2p1)/2=arcsin(p)arcsin(1/2)。斜坡的“匹配”(标准(2))使所有的曲线图,以重合邻近p=1/2.

参数λ最有用的值在10之间。(你可以让尾部甚至负值重λ,但这种用法是罕见的。) λ=1不这样做的所有事情,除了recenter值(f(p)=p1/2)。当λ缩小为零时,尾部进一步拉向±。这满足标准#1。因此,通过选择适当的λ值,您可以控制尾部重新表达的“强度”。


ub,知道有任何R函数可以自动执行此功能吗?
约翰

1
@John不,我没有,但是很容易实现。
ub

2
我认为这基本上没有困难,但是如果有像boxcox转换之类的东西可以自动为lambda绘制出最佳选择,那就太好了。是的,实施起来并不可怕……
约翰·

2
谢谢whuber,这正是我想要的东西,图表真的很有帮助。绝对同意John的观点,例如boxcox会有所帮助,但这似乎很容易解决。
弗雷亚·哈里森

7

一种包含方式是包含索引转换。一个普通的方法是使用任何对称的(逆)累积分布函数,从而˚F X = 1 - ˚F - X 。一个示例是具有ν自由度的标准学生t分布。参数v控制转换后的变量逐渐变回无穷大的速度。如果将v设置1,则具有arctan变换:F(0)=0.5F(x)=1F(x)νvv=1

x=arctan(π[2p1]2)

这比反正弦要极端得多,比对数变换要极端得多。注意,分对数变换可以通过使用t分布被粗略近似。SO以某种方式提供了logit和probit(ν = )转换之间的近似链接,并将它们扩展到更极端的转换。ν8ν=

这些变换的问题在于,当观察到的比例等于10时,它们给出。因此,您需要以某种方式缩小这些范围-最简单的方法是添加+ 1个 “成功”和+ 1个 “失败”。±10+1+1


2
由于各种原因,Tukey建议为计数增加+1/6。请注意,此答复是我描述的Tukey折叠方法的特例:任何具有正PDF的CDF都是单调的;折叠对称CDF使其保持不变。
ub

2
我一直想知道你的粗略估计是从哪里来的。你如何到达?我无法重现。我接受的是近似必须在极端打破p接近01,但我发现,ν = 5对于Logit的一个更好的匹配p1 / 2。你也许优化的CDF之间的平均差值一定程度牛逼νLogit模型ν8p01ν=5p1/2tνlogit
Whuber

2
@whuber-您给我太多荣誉。我的建议是基于观察的概率密度函数的曲线图,后勤PDF的曲线图˚F X = ë - X1 + ë - X- 2,和标准正态分布的PDF的曲线图。 5个自由度与多余的峰度相匹配,并且可能会更好。t8f(x)=ex(1+ex)25
概率

5
@whuber向计数加1/6的原因之一是,假设“杰弗里斯”先验是二项式分布,则所得的“起始”计数近似于后验中值(我在此处稍作介绍:sumsar.net/blog/2013/09/贝叶斯扭曲在鞭子上)。但是我不知道这是否是Tukey添加1/6的原因。您知道他的原因可能是什么吗?
RasmusBååth2015年

4
@Rasmuth在EDA中,第41 页。496年,Tukey写道:“我们在此推荐的用法确实有一个借口,但是由于该借口(i)是间接的,并且(ii)涉及更复杂的考虑,因此我们不再赘述。我们建议在此加1 /所有拆分计数都为6,从而“开始”计算。” (任何值 “分割计数” 是一批数据x ix i < x的数量加上x i = x的一半。)我不记得遇到过这些“复杂的注意事项”在我读过的其他Tukey论文或书中,但总是想像它们可能与概率图点有关。xxi<xxi=x(xi)
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.