在统计数据中,我们正在进行线性回归,即线性回归。总的来说,我们知道越高越好,但是有没有一种场景,其中高将是无用的模型?
在统计数据中,我们正在进行线性回归,即线性回归。总的来说,我们知道越高越好,但是有没有一种场景,其中高将是无用的模型?
Answers:
是。评估统计模型的标准取决于当前的特定问题,而不是某些机械功能或统计意义(尽管它们很重要)。相关的问题是:“模型是否有助于您理解数据?”
获得高的最简单方法是使左脚的右脚鞋回归。告诉我你的右脚鞋的尺寸,我可以非常准确地预测出你的左脚鞋的尺寸。巨大!多么出色的统计模型!除了这意味着dodlyly便便。通过将相同的变量放在回归的左侧和右侧,可以得到出色的,但是这种巨大的回归几乎肯定是没有用的。
在其他情况下,从概念上讲,在右侧包括一个变量是错误的事情(即使它会提高)。假设您正在尝试估计某些少数族裔是否受到歧视并且不太可能找到工作。您不应该控制公司在求职后是否回电,因为对少数族裔求职的回复不太可能是造成歧视的渠道!添加错误的控件会使您的回归毫无意义。
您随时可以通过添加更多回归变量来增加!我可以一直在右边添加回归变量,直到获得我喜欢的。为了预测劳动收入,我可以在某些时候添加教育控制,年龄控制,季度固定效应,邮政编码固定效应,职业固定效应,公司固定效应,家庭固定效应,宠物固定效应,头发长度等。不再有意义,但持续上升。将所有内容添加为回归变量称为“厨房接收器”回归。您可以获得较高的但可能会大量拟合数据:您的模型可以完美预测用于估算模型的样本(具有较高的),但估计的模型在新数据上严重失败。
多项式曲线拟合中可以显示相同的想法。给我随机数据,通过拟合200度多项式,我可能会得到很好的。但是,在新数据上,由于过度拟合,估计的多项式将无法工作。同样,对于估计的模型,较高的是无效的。
点(3-4)是我们调整,这为增加更多的回归数提供了一定的代价,但是调整后的通常仍然可以通过过度拟合数据来解决。它还具有极好的荒谬的功能,它可以变成负数。
我还可以举一些例子,其中低就可以了(例如,估算资产定价模型中的beta),但是这篇文章已经很长了。总而言之,总的问题应该是,“知道我对问题和统计信息的了解,此模型是否有助于我理解/解释数据?” 可以作为帮助回答此问题的工具,但并不是那么简单,因为具有更高模型总是更好。
对于R平方,“越高越好”是一个不好的经验法则。
几年前,唐·莫里森(Don Morrison)写了一些著名的文章,表明根据行业的不同,接近2的R平方仍然可以发挥作用并实现盈利。例如,在直接营销中预测向一千万个家庭邮寄杂志订阅的响应时,如果邮寄基于响应的前2个或3个表示,则低个位数的R平方可以产生有利可图的广告系列(以ROI为基础)可能性。
另一位社会学家(名字避开了我)按数据类型对R平方进行了细分,并指出在调查研究中,R平方在10%至20%的范围内是正常的,而对于商业数据,R平方在40%至60%的范围内是意料之中的。他们继续指出80-90%或更高的R平方可能违反了基本回归假设。但是,该作者没有行销组合,时间序列数据或包含全套“因果”功能(例如,价格,促销,位置和产品的经典4个“ P”)的模型的经验,这些特征可能会产生R-方块接近100%。
就是说,即使是明智的基准基准法则,在与技术上不识字的人打交道时,对预测模型的第一个问题始终是:“ R平方是什么?