通常,统计分析人员会得到一组数据集,并要求使用线性回归之类的技术来拟合模型。通常,数据集带有免责声明,类似于“哦,是的,我们搞砸了收集其中一些数据点-尽您所能”。
这种情况导致回归拟合受到可能存在错误数据的异常值的严重影响。给定以下内容:
从科学和道德的角度来看,无缘无故丢掉数据是危险的,除了“会使拟合看起来很糟糕”。
在现实生活中,收集数据的人员经常无法回答诸如“在生成此数据集时,您究竟弄错了哪些要点?”之类的问题。
哪些统计检验或经验法则可以用作排除线性回归分析中异常值的基础?
多线性回归是否有特殊考虑?