转换数据:所有变量还是非常规变量?


14

在Andy Field的《使用SPSS发现统计信息》中,他指出必须对所有变量进行转换。

但是,在出版物:“使用地理加权回归研究土地利用与水质之间的空间变化关系I:模型设计和评估”中,他们特别指出,只有非正态变量才被转换。

这种分析具体吗?例如,在均值比较中,将日志与原始数据进行比较显然会产生显着差异,而当使用类似回归的方法来调查变量之间的关系时,它就变得不那么重要了。

编辑:这是“数据转换”部分中的全文页面:

这是论文的链接:http : //www.sciencedirect.com/science/article/pii/S0048969708009121


16
根据您发布的新图像,作者似乎将“变量”与“观察”混淆了。在p的顶部。154他正确地强调说,在转换变量时,必须以相同的方式转换其所有值(观测值),否则将无法比较任何内容。(不过,断言“不会改变变量之间的关系”需要非常慷慨的解释才能正确。)p的底部。154如此明显地错误,一句话一句(甚至在脚注中),以至于甚至没有时间来列举它的所有问题。
胡伯

Answers:


17

您引用了几条建议,这些建议无疑都是有帮助的,但是很难在其中找到很多优点。

在每种情况下,我都完全依赖您引用的摘要。在作者的辩护中,我想相信他们在周围或其他材料中添加了适当的限定。(使用通常的名称,日期,标题,(出版商,地点)或(期刊标题,卷,页)格式的全书目参考文献将使问题更加严重。)

领域

该建议旨在提供有用的帮助,但充其量只是大大简化了。菲尔德的建议似乎是一般性的。例如,对Levene检验的引用意味着暂时关注方差分析。

1个0

更普遍的说,在许多领域中,通常的情况是,某些预测变量应该进行转换,其余的保持原样。

的确,在纸上或论文中遇到将不同的转换应用于不同的预测变量的混合情况(包括作为特例,身份转换或保持原样)通常是读者关注的问题。混合方案是经过深思熟虑的选择集,还是随意而反复无常?

此外,在一系列研究中,方法的一致性(总是将对数应用到响应中,或者从不做对策)确实有助于比较结果,而不同的方法则更加困难。

但这并不是说不可能永远没有混合的理由。

我看不到您引用的大部分内容与以黄色突出显示的关键建议有很大关系。这本身就是一个令人关注的问题:宣布一个绝对规则然后不真正解释它是一件奇怪的事情。相反,禁令“记住”表明,Field的根据在本书的前面已提供。

匿名纸

这里的上下文是回归模型。通常,谈论OLS奇怪地强调估计方法而不是模型,但是我们可以理解其目的。我认为GWR是地理加权回归。

这里的论点是,您应该变换非正态预测变量,而其他保持不变。再次,这引发了一个关于您可以并且应该如何使用指标变量的问题,这些指标变量不能以正态分布(如上所述,可以通过指出这种情况下的非正态性来解决)。但是该禁令在暗示问题的原因在于预测变量的非正态性方面倒退了。不是这样;假设有关预测变量的边际分布的任何假设都不是回归建模的一部分。

Xβ

在这个论坛上有很多关于转换的非常好的建议,我专注于讨论您引用的内容。

PS您添加了一条语句,以“例如,在均值比较中,将日志与原始数据进行比较显然会产生显着差异”。我不清楚您的想法,但是将一个组的值与另一组的对数进行比较只是荒谬的。我完全不理解您的其余发言。


尼克,我想快速简洁地传达我的观点,我觉得我做到了。在Google的世界中,我已经提供了足够的信息,可以根据需要轻松地访问原始文档。谢谢您的回答,尽管以某种方式进行了介绍,但您确实向我提供了我所寻求的信息:必须转换所有变量(如Field的建议一样)在他的数据转换部分中,这是错误的数据转换方法。
我的心跳

14
+1。我惊奇地发现您如何巧妙地解决了完全错误的材料。可以在SPSS本书中的各处浏览页面,深入了解我们在此站点上遇到的一些真正令人困惑的问题:我认为这些问题必须来自该书的读者。它充满了错误,错误信息和完全虚构的内容。
ub

@I Heart Beats感到高兴的是,您发现答案很有用,但我要求提供适当的参照物。您可能还说,不完整的引用始终是可辩护的,因为感兴趣的人可以始终使用Google。相反,好的书目做法可以帮助获得良好的学术和科学知识,并提供详尽的细节,而不会使(许多)读者做不必要的工作。
Nick Cox

@Nick在我的问题中看到编辑内容。我认为该文章是开源的,并且为上下文添加了整页文字。
I Heart Beats 2015年

8
感谢您增强参考。您已从Field引用了更多内容。可见有一个额外的部分,其中包括“转换数据不会改变变量之间的关系”的断言。要么以“关系”的特殊含义为中心,要么(我很可能担心)这是无益的,的确是错误的。从某种意义上说,我很遗憾同意@whuber关于我们面前的证据所涉及的书。(更新:whuber同时提出了相同的观点:请参阅他对这个问题的评论。)
Nick Cox

10

首先,两个引号都是误导性的,因为没有对应用于回归模型的数据进行任何变换以使变量 PDF更加正态分布,而是使模型残差更加对称,因为经典回归中的一个假设是误差是高斯的。这意味着比仅对称化PDF更严格和严格的级别。

此外,这两种引用都很弱,因为没有人研究其处方的动机(至少基于提供的信息)。碰巧的是,我不同意两者。

在您强调的段落中,SPSS书声称不允许混合使用各种变换(例如,一个变量的自然对数,另一个变量的平方根)。为什么这是非法的?转换的混合没有违反我所知道的回归假设。请检查有关回归假设的所有回归文本,以确认是这种情况。转换混合可能在解释方面存在实质性的描述性问题,但这不是混合是否非法的问题。SPSS家伙错了。

至于第二篇文章,转换再次完全取决于分析人员的选择-是否完全执行转换,转换所有输入或某些变量而不是其他变量。这些都不违反任何假设。

我认为第二个引人注意的地方是这样的断言:“ ...避免潜在的多重共线性...仅使用了一个土地使用指标(...)。”这显然是错误的建议,听起来像这种事情有分析师将做一个降维技术,他们将在那里因素分析一组变量,并挑选在每个因素的最高负荷变量。这种启发式方法已经存在多年了,不是我使用或推荐的一种方法。同样,这是分析师偏爱和培训的问题。但这并不是针对您的特定问题。

归根结底,根据提供的信息,在没有任何支持证据的情况下,这两个引述都是作者观点的断言。


8
我们提出的观点大致相似,但我想补充一点,好的文字说明,高斯误差是回归建模中最不重要的假设,并且在许多目的中不需要。
Nick Cox

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.