对于百分比/比例数据,是否有(更强的)替代arcsin平方根的变换?在我目前正在处理的数据集中,应用此转换后仍存在明显的异方差性,即残差与拟合值的关系图仍然是菱形。
编辑以回应评论:数据是实验参与者的投资决定,他们可能以10%的倍数投资捐赠基金的0-100%。我还使用序数逻辑回归分析了这些数据,但想了解有效的glm会产生什么。另外,我认为答案对将来的工作很有用,因为反正弦方根似乎被用作我领域的一种“千篇一律”的解决方案,而且我没有遇到任何采用的替代方法。
对于百分比/比例数据,是否有(更强的)替代arcsin平方根的变换?在我目前正在处理的数据集中,应用此转换后仍存在明显的异方差性,即残差与拟合值的关系图仍然是菱形。
编辑以回应评论:数据是实验参与者的投资决定,他们可能以10%的倍数投资捐赠基金的0-100%。我还使用序数逻辑回归分析了这些数据,但想了解有效的glm会产生什么。另外,我认为答案对将来的工作很有用,因为反正弦方根似乎被用作我领域的一种“千篇一律”的解决方案,而且我没有遇到任何采用的替代方法。
Answers:
当然。John Tukey描述了EDA中的一系列(不断增加的,一对一的)转换。它基于以下思想:
能够按照参数控制将尾巴(朝0和1延伸)。
然而,到中间(靠近匹配原始(未转化的)值),这使得转换更容易解释。
做出关于重新表达对称 即,如果是重新表示为,然后将被重新表示为。
如果与任何单调递增函数开始在可微可以调整它,以满足第二和第三标准:只要定义
分子是显式对称的(标准),因为将与交换可以使减法相减,从而取反。地看到,被满足时,请注意,分母是恰恰需要使因子 回想一下,衍生物接近支持线性函数的函数的局部行为; 的斜率,从而意味着(加上常数)当是足够接近 这是在其中的原始值被感测“的中间附近相匹配。”
Tukey将此称为的“折叠”版本。他的家庭由功率和对数变换其中,当,我们考虑。
让我们看一些例子。当,我们得到折叠的根部或“福鲁特,” 。当,我们有折叠对数,或“鞭打” 显然,这仅仅是的常数倍分对数变换,。
在该曲线图的蓝色线对应于,中间红线,且极端绿线到。虚线金线是反正弦变换,。斜坡的“匹配”(标准)使所有的曲线图,以重合邻近
参数最有用的值在和之间。(你可以让尾部甚至负值重,但这种用法是罕见的。) 不这样做的所有事情,除了recenter值()。当缩小为零时,尾部进一步拉向。这满足标准#1。因此,通过选择适当的值,您可以控制尾部重新表达的“强度”。
一种包含方式是包含索引转换。一个普通的方法是使用任何对称的(逆)累积分布函数,从而和˚F (X )= 1 - ˚F (- X )。一个示例是具有ν自由度的标准学生t分布。参数v控制转换后的变量逐渐变回无穷大的速度。如果将v设置为1,则具有arctan变换:
这比反正弦要极端得多,比对数变换要极端得多。注意,分对数变换可以通过使用t分布被粗略近似。SO以某种方式提供了logit和probit(ν = ∞)转换之间的近似链接,并将它们扩展到更极端的转换。
这些变换的问题在于,当观察到的比例等于1或0时,它们给出。因此,您需要以某种方式缩小这些范围-最简单的方法是添加+ 1个 “成功”和+ 1个 “失败”。