使用回归来投影超出数据范围可以吗?永远不行吗?有时候好吗?


10

您对使用回归来投影数据范围之外有什么想法?如果我们确定模型遵循线性或幂模型形状,那么超出数据范围的模型是否有用?例如,我的数量受价格驱动。我们应该能够预测我认为超出数据范围的价格。你的想法?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92

1
取决于您的假设在数据范围之外的保持程度。预测为未观察到的是您首先进行回归的全部原因。XÿX
2015年

3
即使您确实确实要确保线性关系继续超出观测值样本中的预测变量的范围,对于新观测值,预测响应的方差中也存在一项-即 -这会让您感到担心。 Ñ X * X * - ˉ X2X1个XññXX-X¯2一世ñX一世-X¯2
Scortchi-恢复莫妮卡

Ben我倾向于同意,难道不是因为未观察到的X预测了y的全部意思吗?否则为什么还要回归呢?可能对我允许自己冒险离开观察到的数据范围设置一个限制可能是负责任的。当然10%是安全的。
约翰逊·杰森

关于此主题的最喜欢的尺度是bmj.com/content/317/7155/409
卡洛·拉扎罗

@ Ben,@ Johnson-也许是个小问题。回归还有另一个用途。它可以用来解释而不是预测。我认为,特别是在社会科学中,这是回归的主要用途。我已经读过很多这样的论据,例如,我们认为(变量)A影响结果B,我们进行了回归分析,发现A的系数的95%置信区间不包含0,因此我们得出结论:形式A的关系导致B。顺便说一句,这不是我做过的事情!
meh 2015年

Answers:


13

几乎所有的答案和评论都对推断的危险提出警告。我想提供一种更正式的方法来查看预测是否谨慎。该方法基于列跨越的空间上的投影矩阵,我们假设该列为全秩,即假设列空间为p维。您可能还记得,X

H=XXŤX-1个X

可以证明的对角元素满足,这是幂等的结果,并且它们可以解释为距预测变量空间质心的距离。这是正确的,因为杠杆与平方的马氏距离之间存在一一对应的关系。一种发现隐藏外推法的方法就是看新的离经线离质心有多远,对吗?这可以通过计算新的对角线元素来完成。回顾矩阵乘法的一些基本规则,我们有 0 < H i i < 1 i = 1 n H i iH0<H一世一世<1个 一世=1个ñH一世一世

HñËwñËw=XñËwŤXŤX-1个XñËw

如果比对角线元素的其余部分大得多,那么这表明您新的观测值离质心很远,因此预测可能是冒险的举动。需要做一些判断才能确定太大的大小,因此该技术当然不是万无一失的。但是,当您无法查看一个简单的散点图时,它的优点在于它可以在所有维度上运行。HñËwñËw

我不确定您使用的是哪个软件,但是几乎所有软件都将使用正确的命令返回帽子矩阵。因此,我建议您在下定决心之前先看一下。


JohnK做得好,这非常有帮助。仅供参考,我正在使用Excel回归。
约翰逊·杰森

9

预测误差随与平均值的距离呈二次方增加。回归方程式和结果使您可以在观察到的数据范围内衡量误差的大小,并且该模型仅在相同范围内才足够。

超出此范围,可能会发生许多事情。首先,由于预测误差的增加,预测变得越来越差。

其次,模型可能会完全崩溃。最简单的方法是尝试建立一个将价格与时间相关的模型:您无法对负时间进行预测。

第三,线性关系可能不充分。在您的示例中,几乎可以肯定存在规模经济,如果您尝试预测远远超出观察值范围的情况,这将变得非常明显。

马克·吐温(Mark Twain)的其中一部作品中出现了一个类似效果的幽默例子,他试图模拟密西西比河随时间变化的长度,因为它的风很大,每年由于某些侵蚀而缩短/缩短。弯道以及人为的捷径-和“预测”表明,在这么多年的时间里,开罗,伊利诺伊州和新奥尔良之间的距离将缩小到大约一英里零四分之三。

最后,请注意,如果您有多个预测变量,则观测值的范围可能会非常复杂。(由于预测变量之间的相关性,您常常不能只取每个预测变量的最大值和最小值所定义的框。)


1
(+1)尽管说该模型在所观察到的数据范围内才是适当的,但它还是有一定优势的-这是因为您所描述的问题与您所获得的距离越远越相关。
Scortchi-恢复莫妮卡

那么,围绕观察到的数据范围进行冒险的安全距离有多远?小于1标准偏差吗?
约翰逊·杰森

1
@斯科特基 点了。在大多数情况下,模型的降级是逐步的。然而,偶尔严格的界限,并试图超越那些将会导致悲痛。
user3697176

1
@JohnsonJason:寻找经验法则没有任何意义。假设可以对模型进行推断,则可以轻松计算预测间隔;您对推断的信任程度取决于主题知识:可接受的情况因案例而异。
Scortchi-恢复莫妮卡

1
优秀积分(+1)。但是在预测负时间价格方面没有逻辑上的问题。真正的问题是,如果您预测给定时间内的负价格(通常是过去,实际上)。通常,这意味着该模型在质量上是错误的,就像外推法将一条线(或曲线)延伸得过长一样。例如,对数链接函数始终暗示肯定的预测。
尼克·考克斯

4

您无法针对没有数据的区域做出由数据驱动的决策。故事结局。数据可以很好地支持数据收集范围内的线性形状,但是您没有数据驱动的理由认为该形状在您的范围之外仍然是线性的。阳光下可以是任何形状!

您可能会假设线性形状继续超出数据范围,但这是您收集的数据不支持的主观假设。我建议咨询主题专家,以他们的主题专长为基础,查看此假设的安全性。


2
那么什么是真正的在做回归点,如果我们无法预知Ÿ的未观测到的X的
约翰逊杰森

2
我认为关键是您仍然可以在范围内进行预测,但不建议在范围内进行预测。大概大多数新数据点都在该范围内,因此该模型在大多数时间都将保持有用
Ryan Zotti 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.