“现代”统计的经验法则


85

我喜欢G van Belle撰写的有关统计经验法则的书,在较小程度上,我喜欢Phillip I Good和James W. Hardin 撰写的统计学中的常见错误(以及如何避免错误)。当解释实验和观察研究的结果时,它们解决了常见的陷阱,并为统计推断或探索性数据分析提供了实用建议。但是我感到有些缺乏“现代”指南,特别是随着在各个领域中对计算和鲁棒统计的使用不断增长,或者在临床生物统计学或遗传流行病学等领域引入了机器学习社区的技术。

除了可以在其他地方解决的计算技巧或数据可视化中的常见陷阱之外,我想问一下:对于高效的数据分析,您建议的最高经验法则是什么?请为每个答案制定一条规则)。

我正在考虑您可以向同事,没有统计学建模背景的研究人员或中高级课程的学生提供的指导原则。这可能与数据分析的各个阶段有关,例如采样策略,特征选择或模型构建,模型比较,后估计等。

Answers:


62

开始分析之前,请不要忘记进行一些基本数据检查。特别是,请查看您要分析的每个变量与ID号,数据收集的日期/时间或类似数据的散点图。当摘要统计数据未显示任何异常情况时,眼睛通常会发现会显示问题的模式。如果要使用对数或其他变换进行分析,也可以将其用于绘图。


6
我很难学到这一点。两次。
一站式服务,2010年

2
是! 三思而后行。请查看数据。
vqv 2010年

7
如果事后做出决定,则对数据进行目视检查会导致I型错误。我倾向于进行预先确定的分析,包括探索性或敏感性分析中受检查影响的结果。
AdamO 2013年

51

保持分析可重复。审稿人,您的老板或其他人最终会问您,您得出结果的准确程度如何-大概在您进行分析后六个月或更长时间。您将不会记得如何清理数据,进行了哪些分析,为什么选择了所使用的特定模型……而重建所有这些都是很痛苦的。

结论:使用某种脚本语言,在您的分析脚本中添加注释,并保留它们。使用的内容(R,SAS,Stata等)不如具有完全可复制的脚本重要。拒绝不可能或尴尬的环境。


24
如果您要使用R,建议您将R代码嵌入生成报告的Sweave文档中。这样,R代码将保留在报告中。
John D. Cook 2010年

36

天下没有免费的午餐

通过单击名为“计算显着性”的大型闪亮按钮(而不考虑其隐藏假设的负担)可以创建大部分统计失败。

重复

即使涉及到对随机数生成器的一次调用,也可能会遇到运气或运气不好,因此得出错误的结论。


29

每个答案一个规则;-)

进行研究之前,请与统计学家交谈。如果可能,在申请补助金之前。帮助他/她了解您正在研究的问题,获得有关如何分析您将要收集的数据的意见,并思考这对您的研究设计和数据要求意味着什么。也许统计人员/女孩建议做一个分层模型来说明谁诊断了患者-然后您需要跟踪谁诊断了谁。听起来微不足道,但是在收集数据(而不收集关键数据)之前,最好先考虑一下。

相关说明:在开始之前进行功率分析。没有为没有足够大的样本预算而感到沮丧。在考虑预期的影响大小时,请记住出版偏见-您将要找到的影响大小可能会比(有偏见的)文献所预期的要小。


28

我告诉学生们的一件事是为每个p值生成一个合适的图。例如,散点图(如果他们测试相关性),并排箱线图(如果他们进行单向方差分析)等。


28

如果要在两种分析数据的方法之间做出选择,请尝试两种方法,看看它们是否有所不同。

这在许多情况下很有用:

  • 转换或不转换
  • 非参数或参数测试
  • Spearman或Pearson的相关
  • PCA或因子分析
  • 是使用算术平均值还是平均值的可靠估计
  • 是否包含协变量
  • 是否使用按列表删除,按对删除,插补或其他一些缺少值替换的方法

这不应免除人们对问题的思考,但至少可以使人对实质性发现对选择的鲁棒性有一个了解。


4
这是报价吗?我只是想知道如何尝试其他测试程序(而不是分析策略!)在某种程度上不会破坏对I型错误或初始功率计算的控制。我知道SAS系统地返回参数和非参数测试的结果(至少在均值和ANOVA的两个样本比较中),但是我总是觉得这很有趣:我们在看到结果之前不应该决定应该使用哪种测试吗?
chl

4
@chl好点。我同意以上的经验法则可以用于错误的原因。即,尝试多种方式并仅报告给出更令人愉悦答案的结果。我认为,经验法则可用作数据分析师培训工具,以了解分析决策对实质性结论的影响。我已经看到许多学生迷失了决策,尤其是在文献中存在相互竞争的建议(例如,转换或不转换)时,这些建议通常对实质性结论的影响很小。
Jeromy Anglim

1
@chl不,这不是引号。但是我认为最好将经验法则与其原理和警告区分开来。为了清楚起见,我将其更改为粗体。
Jeromy Anglim

1
好吧,尝试不同的转换对我来说很有意义,看看它是否提供了一种更好的方式来说明所研究的关系;我不理解的是尝试不同的分析策略,尽管这是当前的做法(但尚未在已发表文章中发表:-),尤其是。当它们依赖于不同的假设时(在EFA与PCA中,您会假设一个额外的误差项;在非参数与参数测试中,您会舍弃部分假设等)。但是,我同意探索性分析和确认性分析之间的界限不是很清楚……
chl 2010年

2
在我看来,这仅对探索性分析或培训和验证步骤有用。您将始终需要最后的验证测试步骤,否则,您可能会因某些“重大结果”而自欺欺人,一旦根据“主观”信念获得理想的差异,这些结果就会很好地发挥作用。谁来判断哪种方法更好?我个人,如果我怀疑不同的方法,然后我测试它模拟数据,以测试这样的事情估计或鲁棒性等的方差
马亭Weterings

22

质疑您的数据。在廉价RAM的现代时代,我们经常处理大量数据。一个“胖手指”错误或“失去小数位数”很容易成为分析的主导。如果不进行一些基本的健全性检查(或按照此处其他人的建议来绘制数据),则会浪费很多时间。这还建议使用一些基本技术来增强对异常值的“鲁棒性”。


2
结果:查看是否有人将缺失值编码为“ 9999”而不是“ NA”。如果您的软件按面值使用此值,则会使您的分析混乱。
Stephan Kolassa,2012年

21

使用可显示从原始数据到最终分析/结果的编程逻辑链的软件。避免使用像Excel这样的软件,在该软件中,一个用户可以在一个单元格中发生无法检测到的错误,而只有手动检查才可以执行。


1
VisTrails是一个可以帮助完成此过程的系统。(我只使用自制系统;共同的群体目标比特定的工具更重要。)
denis

18

总是问自己“这些结果意味着什么以及如何使用它们?”

通常,使用统计信息的目的是帮助在不确定情况下做出决策。因此,摆在眼前的是很重要的:“根据此分析将做出哪些决策,以及该分析将如何影响这些决策?” (例如发表文章,推荐使用一种新方法,向Y提供$ X资金,获取更多数据,将估计数量报告为E等,等等。。。)

如果您不认为有任何决定要做,那么您会想知道为什么要首先进行分析(因为进行分析非常昂贵)。我认为统计是一种“麻烦”,因为它是达到目的的手段,而不是目的本身。在我看来,我们仅对不确定性进行量化,以便我们可以使用它来做出能够以精确方式解决此不确定性的决策。

我认为这是保持简单为普遍政策的一个原因,因为通常将简单的解决方案与现实世界(并因此与决策所处的环境)联系起来要比复杂的解决方案容易得多。 。通常,更容易理解简单答案的局限性。当您了解简单解决方案的局限性以及复杂解决方案的局限性后,您便可以转向更复杂的解决方案。


3
除了保持简单的想法外,我都同意。对我来说,简单性或复杂性应该是您雄辩地解释了不正确的决策成本的函数。简单性在一个方面的成本可以忽略不计(例如,向客户投放错误的广告),而在另一方面的成本却截然不同(对患者进行错误的治疗)。
Thomas Speidel 2014年

18

可能有很长的清单,但只列举了一些:(无特定顺序)

  1. P值不是概率。具体而言,这不是犯I类错误的可能性。同样,配置项对给定数据也没有概率解释。它们适用于重复实验。

  2. 在实践中,与方差相关的问题多数时候都在偏倚中占主导地位,因此方差较小的偏倚估计要好于方差较大的无偏估计(大部分时间)。

  3. 模型拟合是一个迭代过程。在分析数据之前,请了解数据源以及适合或不符合描述的可能模型。另外,请尝试对模型中的任何设计问题进行建模。

  4. 在分析数据之前,请使用可视化工具查看数据(可能的异常,明显的趋势等以了解数据)。使用可视化方法(如果可能)来查看模型如何适合该数据。

  5. 最后但并非最不重要的一点是,将统计软件用于其用途(以使您的计算任务更容易),它们不能替代人类思维。


14
您的项目1是不正确的:P值是在假设为零的前提下,获取数据的概率为极值或更高值的概率。据我所知,这意味着P 一个概率-有条件但仍然一个概率。在以下情况下,您的说法是正确的:一个人在Neyman-Pearson错误范式下工作,而在费舍尔范式下工作,其中P值是反对虚假假设的证据。的确,这些范式定期混入不连贯的糊状食物中,但是当单独使用且完整时,两者都是“正确的”。
Michael Lew

2
同样,对于置信区间,您只能在Neymanian置信区间的范围内进行校正。费舍尔(以及他之前的其他人)也设计并使用了一些可以被解释为置信区间的东西,并且对这种区间有一种完全有效的解释,是指产生该区间的特定实验。在我看来,它们比内曼的更为可取。参见我对问题的回答离散函数:置信区间覆盖率?有关更多详细信息:stats.stackexchange.com/questions/8844/…–
Michael Lew

@Michael你是正确的,但让我们看看:Null正确多少次?或更好:有人可以证明null是否正确吗?我们也可以对此进行深入的哲学辩论,但这不是重点。在质量控制中,重复是有意义的,但是在科学中,任何好的决策规则都 必须对数据进行条件处理。
suncoolsu 2011年

1
Fisher知道这一点(根据观察到的数据以及有关质量控制的评论就是基于此)。他以此为基础提出了许多反例。可以说,贝叶斯一直在为此奋斗超过半个世纪。
suncoolsu 2011年

1
@Michael对不起,如果我不够清楚。我只想说:P值在null为true时才是概率,但在大多数情况下null 都不为 true(例如:我们从不期望为true;我们假定为true,但是我们的假设实际上是不正确的。)如果您有兴趣,我可以指出一些文献来详细讨论这个想法。μ=0
suncoolsu 2011年

13

对于数据组织/管理,请确保在数据集中生成新变量时(例如,根据身高和体重计算体重指数),永远不要删除原始变量。从可重现性的角度来看,非破坏性方法是最好的。您永远不知道何时可能会错误输入命令,随后需要重做变量生成。没有原始变量,您将浪费很多时间!


11

认为关于基础数据生成处理(DGP)。如果要使用的模型不能反映DGP,则需要找到一个新模型。


您怎么知道,您怎么知道DGP是什么。例如,我在一个尚未开发完善的理论(为什么某些类型的公共支出发生)的地区运行时间序列。我认为在这种情况下不可能知道真正的过程。
user54285

8

对于直方图,对于直方图中的bin数有一个很好的经验法则:

数据点数的平方根


6

尽管数据集越来越大,软件功能越来越强大,但是过拟合模型仍然是研究人员的主要危险,尤其是那些尚未因过拟合而被淘汰的研究人员。过度拟合意味着您已经拟合了比数据和最新技术还要复杂的内容。像爱情或美丽一样,很难定义,更不用说正式定义了,但是更容易识别。

最小的经验法则是,对于像经典回归之类的任何估计参数,每个参数都需要10个数据点,如果忽略它,请注意后果。对于其他分析,通常需要做更多工作才能做好工作,尤其是在数据中包含稀有类别的情况下。

即使您可以轻松拟合模型,也应不断担心它的含义以及即使非常相似的数据集也可以复制多远。


对于响应条件正常的模型,通常将其视为经验法则。在其他情况下,它太宽松了。例如,对于二进制分类,相应的经验法则是在每个变量的较不常见类别中进行15次观察;对于生存分析,每个变量将是10个事件(即未经审查的数据)。
gung

我同意。我将进行编辑,但为什么不发布您自己的经验法则以及更多评论。
尼克·考克斯

1
您应该突出显示最后一句话:“即使您可以轻松地拟合模型,也应该不断担心它的含义以及即使是非常相似的数据集也可以复制多远。”
马丁·韦特林

6

预测问题中(例如,当您需要使用给定的来预测给定) ,经验法则(必须在进行任何复杂建模之前完成)Y tX tt > T Y 1X 1Y TX TYt+h(Yt,Xt) t>T(Y1,X1),,(YT,XT)

  1. 气候学(通过学习集中的平均观测值预测,可能通过去除明显的周期性模式来预测)Yt+h
  2. 持久性(通过最后观察到的值)。 ÿ Yt+hYt

我现在经常做作为拇指的最后一个简单的基准/规则是使用随机森林(〜中的R软件,数据= learningSet)。它为您(使用R中的2行代码)提供了一个无需任何建模即可实现的初衷。 Y t + X tYt+hYt+Xt


5

如果模型无法轻松快速地收敛,则可能是软件的问题。但是,更常见的情况是您的数据不适合该模型或该模型不适合该数据。很难说出哪个,经验主义者和理论家可能会有不同的看法。但是,主题思考,真正地查看数据以及不断地思考模型的解释都可以提供最大的帮助。最重要的是,如果复杂的模型无法收敛,请尝试使用更简单的模型。

在多次迭代之后但在模型真正收敛之前,强制收敛或宣告胜利并取得结果并没有任何好处。如果这样做的话,充其量只能是愚弄自己。


“真正地查看数据”,当我们得到一个能够为我们完成这项工作的神经网络时,那就太好了。
马丁·韦特林

它被称为JWT。
尼克·考克斯

5

在工具变量回归中,始终检查工具的联合意义。Staiger-Stock的经验法则表示F统计量小于10令人担忧,表明您的工具可能很弱,即它们与内生变量的相关性不足。但是,这并不自动意味着F大于10可以保证强大的工具。Staiger和Stock(1997)已表明,如果“小样本”中的工具变量技术与内生变量之间的相关性很弱,则它们可能会严重偏向2SLS。他们的例子是Angrist和Krueger(1991)进行的研究,该研究有300,000多个观察值–关于“小”样本概念的令人不安的事实。


我已经在文章中添加了链接,但是我相信这个答案还需要进一步的格式设置,我发现很难基于快速浏览文章来强调“经验法则”,而且这个答案也不是很直观。
Martijn Weterings

3

没有选择信息条件的条件。

一旦有人说出类似“?IC表示这一点,但通常会给出错误的结果”(其中“?是您喜欢的任何字母”),您就会知道您还必须考虑模型,特别是它是否使科学或实践意义。

没有代数可以告诉你。


2

我在某个地方读到了它(可能是经过交叉验证的),但是我在任何地方都找不到,所以这里...

如果您发现了有趣的结果,则可能是错误的。

令人惊讶的p值或接近完美的交叉验证错误的前景很容易使人兴奋。我个人狂喜地向同事们展示了很棒的(错误的)结果,而只需要收回它们。大多数情况下,如果看起来太好了以至于无法实现...

真的。'完全是真的。


2

尝试勇敢而非道德,也就是说,不要让非正常性,非独立性或非线性等琐碎迹象阻碍您的道路。如果需要忽略此类指示以便使数据清晰明了。-在丹麦语中,“ dristig”和“ dydig”是形容词。


1

分析纵向数据时,请确保检查每个时间段中变量的编码方式是否相同。

在撰写需要对二级数据进行分析的论文时,大约有一个星期左右的时间,即平均抑郁评分在过去一年中均保持稳定的情况下平均下降了1个单位,结果是:数据集,经过验证的仪器的刻度项目已编码为1-4,而不是0-3。


1

您的假设应该驱动模型的选择,而不是反过来。

用马斯洛的话来说,如果您是一把锤子,那么一切看起来都像钉子。特定的模型带有盲目性和对世界固有的假设:例如,非动态模型会阻塞治疗结果反馈。


1

使用仿真来检查模型的结构可能在何处创建“结果”,这些结果只是模型假设的数学假象

对重新随机化的变量或已知彼此不相关的模拟变量执行分析。这样做是否多次,并且将平均点估计值(以及置信度或可信区间)与您从实际数据中获得的结果进行对比:它们是否全部不同?


0

我是数据分析师,而不是统计学家,但这是我的建议。

1)在分析数据之前,请确保您的方法假设正确。一旦看到结果,即使在解决问题并改变结果之后,也很难忘记它们。

2)有助于了解您的数据。我运行时间序列,得出的结果与最近几年的数据相比毫无意义。鉴于此,我回顾了这些方法,发现该方法中模型的平均值在一段时间内扭曲了结果(并且发生了结构破坏)。

3)注意经验法则。它们从各自的数据反映了各个研究人员的经验,如果他们的领域与您的领域大不相同,那么他们的结论可能对您的数据不正确。此外,这令我震惊,统计学家经常在关键点上意见分歧。

4)尝试用不同的方法分析数据,看看结果是否相似。请注意,没有一种方法是完美的,请仔细检查何时可以违反这些假设。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.