转换比例数据：arcsin平方根不足时

对于百分比/比例数据，是否有（更强的）替代arcsin平方根的变换？在我目前正在处理的数据集中，应用此转换后仍存在明显的异方差性，即残差与拟合值的关系图仍然是菱形。

编辑以回应评论：数据是实验参与者的投资决定，他们可能以10％的倍数投资捐赠基金的0-100％。我还使用序数逻辑回归分析了这些数据，但想了解有效的glm会产生什么。另外，我认为答案对将来的工作很有用，因为反正弦方根似乎被用作我领域的一种“千篇一律”的解决方案，而且我没有遇到任何采用的替代方法。

data-transformation generalized-linear-model heteroscedasticity

— 弗雷亚·哈里森（Freya Harrison）
source

拟合值是多少？你的模特是什么？对于二项式，arcsin使（近似）方差稳定，但是如果比例接近0或1，则仍会产生“边缘”效应-因为正常部分会被截断。

— 概率

让我加倍讨论@probabilityislogic所说的内容，并询问数据的来源。问题中可能存在某种暗示着另一种转变或整个模型的事物，这可能更合适和/或可以解释。

— JMS

@prob @JMS为什么我们不让我相信他对统计数据非常了解的OP首先尝试转换路线？然后，如果这不起作用，那么开始一个新的线程以减少问题的出现范围会很有成果。在这种情况下，您的评论将是适当的。

— ub

反正弦平方根转换存在巨大问题，在有趣的标题为《反正弦为正弦

— 恢复莫妮卡

@mkt感谢您的参考，这已经直接进入下一学期关于广义线性模型的演讲。

— 弗雷亚·哈里森

Answers:

当然。John Tukey描述了EDA中的一系列（不断增加的，一对一的）转换。它基于以下思想：

能够按照参数控制将尾巴（朝0和1延伸）。
然而，到中间（靠近匹配原始（未转化的）值 $1/2$ ），这使得转换更容易解释。
做出关于重新表达对称 $1/2.$ 即，如果 $p$ 是重新表示为 $f(p)$ ，然后 $1-p$ 将被重新表示为 $-f(p)$ 。

如果与任何单调递增函数开始 $g: (0,1) \to \mathbb{R}$ 在可微 $1/2$ 可以调整它，以满足第二和第三标准：只要定义

f (p) = \frac{g (p) - g (1 - p)}{2 g^{'} (1 / 2)} .

$f(p) = \frac{g(p) - g(1-p)}{2g'(1/2)}.$

分子是显式对称的（标准 $(3)$ ），因为将 $p$ 与 $1-p$ 交换可以使减法相减，从而取反。地看到， $(2)$ 被满足时，请注意，分母是恰恰需要使因子 $f^\prime(1/2)=1.$ 回想一下，衍生物接近支持线性函数的函数的局部行为; 的斜率 $1=1:1$ ，从而意味着 $f(p)\approx p$ （加上常数 $-1/2$ ）当 $p$ 是足够接近 $1/2.$ 这是在其中的原始值被感测“的中间附近相匹配。”

Tukey将此称为 $g$ 的“折叠”版本。他的家庭由功率和对数变换 $g(p) = p^\lambda$ 其中，当 $\lambda=0$ ，我们考虑 $g(p) = \log(p)$ 。

让我们看一些例子。当 $\lambda = 1/2$ ，我们得到折叠的根部或“福鲁特，” $f(p) = \sqrt{1/2}\left(\sqrt{p} - \sqrt{1-p}\right)$ 。当 $\lambda = 0$ ，我们有折叠对数，或“鞭打” $f(p) = (\log(p) - \log(1-p))/4.$ 显然，这仅仅是的常数倍分对数变换， $\log(\frac{p}{1-p})$ 。

lambda = 1、1 / 2、0和arcsin的图形

在该曲线图的蓝色线对应于 $\lambda=1$ ，中间红线 $\lambda=1/2$ ，且极端绿线到 $\lambda=0$ 。虚线金线是反正弦变换， $\arcsin(2p-1)/2 = \arcsin(\sqrt{p}) - \arcsin(\sqrt{1/2})$ 。斜坡的“匹配”（标准 $(2)$ ）使所有的曲线图，以重合邻近 $p=1/2.$

参数 $\lambda$ 最有用的值在 $1$ 和 $0$ 之间。（你可以让尾部甚至负值重 $\lambda$ ，但这种用法是罕见的。） $\lambda=1$ 不这样做的所有事情，除了recenter值（ $f(p) = p-1/2$ ）。当 $\lambda$ 缩小为零时，尾部进一步拉向 $\pm \infty$ 。这满足标准＃1。因此，通过选择适当的 $\lambda$ 值，您可以控制尾部重新表达的“强度”。

— ub
source

ub，知道有任何R函数可以自动执行此功能吗？

— 约翰

@John不，我没有，但是很容易实现。

— ub

我认为这基本上没有困难，但是如果有像boxcox转换之类的东西可以自动为lambda绘制出最佳选择，那就太好了。是的，实施起来并不可怕……

— 约翰·

谢谢whuber，这正是我想要的东西，图表真的很有帮助。绝对同意John的观点，例如boxcox会有所帮助，但这似乎很容易解决。

— 弗雷亚·哈里森

一种包含方式是包含索引转换。一个普通的方法是使用任何对称的（逆）累积分布函数，从而和。一个示例是具有自由度的标准学生t分布。参数控制转换后的变量逐渐变回无穷大的速度。如果将设置则具有arctan变换： $F(0)=0.5$ $F(x)=1-F(-x)$ $\nu$ $v$ $v=1$

x = a r c t a n (\frac{π [2 p - 1]}{2})

$x=arctan\left(\frac{\pi[2p-1]}{2}\right)$

这比反正弦要极端得多，比对数变换要极端得多。注意，分对数变换可以通过使用t分布被粗略近似。SO以某种方式提供了logit和probit（）转换之间的近似链接，并将它们扩展到更极端的转换。 $\nu\approx 8$ $\nu=\infty$

这些变换的问题在于，当观察到的比例等于或时，它们给出。因此，您需要以某种方式缩小这些范围-最简单的方法是添加 “成功”和 “失败”。 $\pm\infty$ $1$ $0$ $+1$ $+1$

— 概率逻辑
source

由于各种原因，Tukey建议为计数增加+1/6。请注意，此答复是我描述的Tukey折叠方法的特例：任何具有正PDF的CDF都是单调的；折叠对称CDF使其保持不变。

— ub

我一直想知道你的粗略估计是从哪里来的。你如何到达

？我无法重现。我接受的是近似必须在极端打破

接近

或

，但我发现，

对于Logit的一个更好的匹配

近

。你也许优化的CDF之间的平均差值一定程度

和

？

ν \approx 8

$\nu\approx 8$

p

$p$

0

$0$

1

$1$

ν = 5

$\nu=5$

p

$p$

1 / 2

$1/2$

t_{ν}

$t_\nu$

logit

$\text{logit}$

— Whuber

@whuber-您给我太多荣誉。我的建议是基于观察的概率密度函数的曲线图

，后勤PDF的曲线图

，和标准正态分布的PDF的曲线图。

个自由度与多余的峰度相匹配，并且可能会更好。

t_{8}

$t_8$

f (x) = e^{- x} (1 + e^{- x})^{- 2}

$f(x)=e^{-x}(1+e^{-x})^{-2}$

5

$5$

— 概率

@whuber向计数加1/6的原因之一是，假设“杰弗里斯”先验是二项式分布，则所得的“起始”计数近似于后验中值（我在此处稍作介绍：sumsar.net/blog/2013/09/贝叶斯扭曲在鞭子上）。但是我不知道这是否是Tukey添加1/6的原因。您知道他的原因可能是什么吗？

— RasmusBååth2015年

@Rasmuth在EDA中，第41 页。496年，Tukey写道：“我们在此推荐的用法确实有一个借口，但是由于该借口（i）是间接的，并且（ii）涉及更复杂的考虑，因此我们不再赘述。我们建议在此加1 /所有拆分计数都为6，从而“开始”计算。” （任何值

“分割计数” 是一批数据

中

的数量加上

一半。）我不记得遇到过这些“复杂的注意事项”在我读过的其他Tukey论文或书中，但总是想像它们可能与概率图点有关。

x

$x$

x_{i} < x

$x_i\lt x$

x_{i} = x

$x_i=x$

(x_{i})

$(x_i)$

— whuber