这里已经有一些不错的评论了,但是我会花2美分。首先,我假设我们正在谈论的情况是,使用传统的“罐头”技术会破坏分析得出的实质性结论。如果不是这种情况,那么我认为有时出于过于简洁和易于理解的目的(当目标受众是外行时)进行过于简单的分析是合理的。当类内相关为.02时假设独立或当真为时认为线性是这样的罪行吗我会说不。log(x); x∈(1,2)?
在我的职业生涯中,我进行了许多跨学科研究,并引导我在不同时期与药物滥用研究人员,流行病学家,生物学家,犯罪学家和医师紧密合作。这通常涉及对数据的分析,其中通常的“固定”方法可能由于各种原因而失败(例如,偏差采样和聚类的纵向和/或空间索引数据的某种组合)。我还花了几年时间咨询研究生院的兼职工作,在那里我与来自各个领域的人一起工作。所以,我不得不考虑很多。
我的经验是,最重要的事情是解释为什么通常的罐装方法不合适,并吸引人进行“良好科学”的愿望。没有任何受人尊敬的研究人员想要发布由于不恰当的统计分析而公然误导其结论的内容。我从未见过有人说过这样的话:“我不在乎分析是否正确,我只是想发表此论文”,尽管我确信这样的人确实存在-我的回答是尽可能终止专业关系。作为统计学家,如果真正知道他们在说什么的人碰巧读了这篇论文,可能是我的声誉受到损害。
我承认说服某人某项特定分析不适当可能具有挑战性,但是我认为作为统计学家,我们应该(a)掌握必要的知识,以确切了解“固定”方法可能出什么问题,并且(b)拥有解释它的能力是一种合理的理解方式。除非您是统计学或数学教授,否则您的工作将是与非统计学家一起工作(甚至有时您是统计学/数学专家)。
关于(a),如果统计学家不具备这些知识,为什么他们不鼓励采用固定方法?如果统计学家说“使用随机效应模型”但不能解释为什么假设独立性是一个问题,那么他们难道不如客户那样屈服于教条吗?无论是不是统计学家,任何评论家都可以对统计建模方法进行make病式的批评,因为,让我们面对现实吧-所有模型都是错误的。但是,这需要专业知识才能准确知道可能出什么问题。
关于(b),我发现可能会出问题的图形描述通常最“打击家”。例子:
在Peter给出的有关对连续数据进行分类的示例中,显示为什么这是一个坏主意的最佳方法是以连续形式对数据进行图形处理并将其与分类形式进行比较。例如,如果您将响应变量设为二进制,然后绘制连续变量vs.,并且,如果它看起来不像步进函数那么糟糕,那么您知道离散化会丢失有价值的信息。如果这种差异不是很大或者不会导致实质性结论的任何变化,那么您也可以从图中看出这一点。x
当建议的模型“形式”(例如线性)不合适时。例如,如果回归函数“高原” 对于像,而对于则为,那么线性拟合的斜率将太浅,这取决于数据在下面的意义-值尽管有是之间存在明显的关系,和。X ∈ (0 ,1 )ÿ = 1 X > 1个p X ÿy=xx∈(0,1)y=1x>1pxy
另一个常见的情况(彼得也提到过)正在解释为什么假设独立是一个坏主意。例如,您可以用图显示正自相关通常会产生更“聚类”的数据,并且由于这个原因方差会被低估,这可以直观地说明为什么天真的标准误差趋于太小。或者,您也可以使用假设独立性的拟合曲线来绘制数据,并且可以直观地看到聚类如何以独立数据中不存在的方式影响拟合(有效降低样本量)。
还有一百万个示例,但是我在这里处理时间/空间限制:)如果图片由于某种原因(例如显示为什么一种方法功能不足)根本不起作用,那么我也采用了模拟示例时。