我喜欢G van Belle撰写的有关统计经验法则的书,在较小程度上,我喜欢Phillip I Good和James W. Hardin 撰写的统计学中的常见错误(以及如何避免错误)。当解释实验和观察研究的结果时,它们解决了常见的陷阱,并为统计推断或探索性数据分析提供了实用建议。但是我感到有些缺乏“现代”指南,特别是随着在各个领域中对计算和鲁棒统计的使用不断增长,或者在临床生物统计学或遗传流行病学等领域引入了机器学习社区的技术。
除了可以在其他地方解决的计算技巧或数据可视化中的常见陷阱之外,我想问一下:对于高效的数据分析,您建议的最高经验法则是什么?(请为每个答案制定一条规则)。
我正在考虑您可以向同事,没有统计学建模背景的研究人员或中高级课程的学生提供的指导原则。这可能与数据分析的各个阶段有关,例如采样策略,特征选择或模型构建,模型比较,后估计等。