我不确定此问题所属的位置:交叉验证或工作场所。但是我的问题与统计模糊不清。
在我作为“数据科学实习生”工作期间出现了这个问题(或者我猜是问题)。我正在建立此线性回归模型并检查残差图。我看到明显的异方差迹象。我记得异方差会扭曲许多检验统计数据,例如置信区间和t检验。因此,根据我在大学中学到的知识,我使用了加权最小二乘。我的经理看到了这一点,并建议我不要这样做,因为“我使事情变得复杂”,这对我来说根本不是一个非常令人信服的理由。
另一个示例是“删除解释变量,因为其p值无关紧要”。确实,从逻辑角度来看,这种建议是没有意义的。据我了解,不重要的p值可能是由于不同的原因造成的:机会,使用错误的模型,违反假设等。
另一个例子是,我使用k倍交叉验证来评估我的模型。根据结果,仅比C V m o d e l 2好。但是我们对于模型1 确实有一个较低的R 2,其原因与拦截有关。但是,我的主管似乎更喜欢模型2,因为它具有更高的R 2。他的原因(例如R 2 是鲁棒的,或者交叉验证是机器学习方法,而不是统计方法)似乎还不足以说服我改变主意。
作为刚大学毕业的人,我很困惑。我非常热衷于应用正确的统计信息来解决现实世界中的问题,但是我不知道下列哪一项是正确的:
- 我自己了解的统计信息是错误的,因此我只是在犯错误。
- 理论统计量与公司的构建模型之间存在巨大差异。尽管统计理论是正确的,但人们只是不遵循它。
- 管理器未正确使用统计信息。
2017年4月17日更新:我已决定攻读博士学位。在统计中。谢谢大家的答复。