预测和推理之间有什么区别?


37

我正在阅读“ 统计学习入门 ”。在第二章中,他们讨论了估计函数的原因。f

2.1.1为什么估计f

我们可能希望估计f有两个主要原因:预测推断。我们依次讨论每一个。

我已经读了好几次了,但是我仍然对预测和推理之间的区别还不清楚。有人可以提供差异的(实际)示例吗?


5
《统计学习入门》的作者在这里给我们带来了损害。正如做出推断以了解原因和结果一样,进行推断就可以做出预测。Merriam-webster.com将“推断”定义为主要是“从事实或前提得出结论”。这既包括因果推理,也包括预测推理。将“推断”的定义范围缩小到仅包含因果关系的问题,这具有误导性,令人困惑并且反对长期使用标准。所以:让我们将预测推理与因果推理进行对比。
rolando2 '18

2
@ rolando2:那么我想我们还需要描述性推理,即关于描述性(非因果)模型中的参数的推理。
kjetil b halvorsen

Answers:


29

推论:给定一组数据,您想推论如何根据数据生成输出。

预测:给定新的度量,您想使用现有的数据集来构建一个模型,该模型从一组结果中可靠地选择正确的标识符。


推论:您想了解年龄,旅客等级和性别对泰坦尼克号灾难的影响。你可以把一个逻辑回归和推断的效果每位乘客特性对生存率。

{lives,dies}


预测并不是围绕在输入和输出之间建立最准确的关系而进行的,准确的预测关心的是尽可能多地将新的观察结果放入正确的类中。

因此,“实际示例”大致可归结为以下差异:给定单个乘客的一组乘客数据,推论方法为您提供了幸存的可能性,分类器为您提供了生死之间的选择。

调整分类器是一个非常有趣且至关重要的主题,就像正确解释p值和置信区间一样。


1
好答案。但是,当有人听到“推理”一词时,他们会认为是“因果推理”。即使(或也许特别是因为)ISLR并不专注于此,您也可能想对此说些话。
–generic_user

1
我认为在深度学习世界中,推理与预测几乎相同。blogs.nvidia.com/blog/2016/08/22/...
user1893354

1
这对我来说似乎是一个很好的答案。
gung-恢复莫妮卡

3
我相信这个答案是错误的,特别是“推理方法使您有生存的可能性,分类器使您可以在生与死之间进行选择”,甚至更具体地讲是第一部分。计算乘客幸存的概率是一种预测,特别是概率预测。在连续的情况下,它将是密度预测。然后,我们可以将这个预测的概率设定为阈值,以进行严格分类,是的。...
S. Kolassa-

3
...预测是关于预测结果的,而推论是关于理解输入与结果的关系的:哪个输入具有这样的关系,以及我们如何才能将“真实”关系与随机协变区分开(这就是p值进来吧)?有人可以向我解释我错在哪里吗?
S. Kolassa-恢复莫妮卡

11

通常,在进行数据分析时,我们会想到存在某种“数据生成过程”来生成数据,而推理则是指了解此过程的结构,而预测意味着能够实际预测来自该过程的数据。两者经常会合而为一,但并非总是如此。

简单的线性回归模型就是两者相辅相成的一个例子

Yi=β0+β1xi+ϵi.

β0β1


3
“但是该模型并不一定能得出有关幕后情况的有意义的见解。” 想到了“ 黑匣子 ”一词。:)
Alexis

或多层神经网络
Shihab Shahriar Khan

“但是在其他类型的模型中,人们可以做出明智的预测,但是该模型并不一定能够得出有关幕后情况的有意义的见解。”谁在乎呢?正如您定义的那样,推理问题仍然是确定模型参数的问题之一。对于您对推理和预测的定义,我不明白您为什么用“ But”开头这句话,为什么还要写这句话。
nbro

1
“ but”的使用是因为之前和之后模型的描述都是正确的,但是下面的模型与前者的性质不同,除非您掌握了预测推理之间的区别,否则您将不会想到正在说明。尽管如此,我已经很熟悉这种区别了,但是我发现这个示例很有见地并且很有帮助。+1
gung-恢复莫妮卡

10

在本书的第20页中,作者提供了一个美丽的示例,使我理解了其中的区别。

这是书中的段落:《统计学习入门》

例如,在房地产环境中,人们可能会寻求将房屋的价值与犯罪率,分区,距河的距离,空气质量,学校,社区的收入水平,房屋的大小等输入相关联。在这种情况下,人们可能会对各个输入变量如何影响价格感兴趣,也就是说,如果一所房子可以欣赏河景,那么房子的价值将增加多少呢?这是一个推论问题。考虑到房屋的特征,在预测房屋价值时:这所房屋是被低估还是被高估了?这是一个预测问题。”


5

ytx1,tx2,t

yt=f(x1,t1,x2,t1)+εt

现在,如果您获得有关收入的数据,例如从BEA获得个人可支配收入系列,并构造一年中的时间变量,则可以估算函数f,然后将人口收入的最新值和一年中的时间插入该函数中。功能。这将产生对商店下一个季度收入的预测。

f/x2tβ2x2,t1

x相关联,很难将预测变量的影响与其他预测变量的影响区分开。对于预测而言,这并不重要,您所关心的只是预测的质量。


3

想象一下,您是重症监护室的医生。您有一个发烧剧烈,给定的血细胞数量,给定的体重以及一百种不同的数据的患者,并且您想预测他或她是否要生存。如果是的话,他将把关于另一个孩子的故事隐瞒给他的妻子。

医生可以根据他所在单位以前的患者数据进行此预测。根据他的软件知识,他可以使用广义线性回归(glm)或通过神经网络(nn)进行预测。

1.广义线性模型

关于glm的参数很多,因此要获得结果,医生将不得不做出假设(线性等),并决定哪些参数可能会产生影响。笑容会奖励他对每个参数的意义进行t检验,因此他可能会收集有力证据,表明性别和发烧会产生重大影响,体重不一定如此。

2.神经网络

神经网络将吞并并消化以前患者样本中的所有信息。不管体重预测因素是否相关,也不会透露太多有关体重影响似乎仅在手头或一般样本中很重要的信息(至少在医生的专业知识水平上不重要)必须提供)。它将只计算结果。

有什么更好的

选择哪种方法取决于您从哪个角度看待问题:作为一个患者,我更喜欢神经网络,它使用所有可用数据来最好地猜测我将要发生的事情,而没有诸如线性之类的强烈且明显错误的假设。作为想要在日记中显示一些数据的医生,他需要p值。医学非常保守:他们会要求p值。因此,医生想报告,在这种情况下,性别具有重大影响。对于患者而言,没关系,只要使用样本建议的最有可能的影响即可。

在此示例中,患者需要预测,医生的科学家方需要推断。通常,当您想了解系统时,推断就很好。如果您需要做出无法理解系统的决定,那么预测就足够了。


1
“作为一个病人,我更喜欢神经网络……”您似乎忽略了一个事实,即在临床科学中很难获得大量数据。由于安全,隐私和道德方面的考虑,每组只有几个观察值的数据集并不少见。如果您可以对数据生成过程做出合理的假设,则可以更有效地利用数据。
弗朗斯·罗登堡

假设这是一种假设场景,其中可以轻松地与为什么看似相同的问题可以提示推理问题和预测问题以及为什么它们不相同有关。我没有提出实际预测患者存活机会的方法,是的,我非常了解获得明显大小的可靠临床数据有多困难。恕我直言,对数据生成过程的良好假设/知识将有助于预测和推理,因此在区分两者方面没有太大作用。
伯恩哈德

1

您并不孤单。阅读答案后,我不再感到困惑-不是因为我了解差异,而是因为我了解旁观者眼中的差异,并从口头上引出了差异。我现在确定这两个术语是政治定义,而不是科学定义。以书中的解释为例,大学试图将其解释为好书:“如果能看到河边的房子,那房子值多少钱?这是一个推断问题。” 从我的角度来看,这绝对是一个预测问题。您是民用建筑公司的所有者,并且您想要选择建造下一套房屋的最佳场地。您必须在同一城镇的两个位置之间进行选择,一个在河边,另一个在火车站附近。你想预测两个地点的价格。或者你想推断。您将要应用统计的确切方法,但是要为过程命名。:)


认为河景需要一定的价格是一种因果关系。预测与因果关系不可知:我可以从原因预测结果,从结果预测原因,或者从具有类似原因的另一个结果预测1个结果。考虑一下我的朋友比利(Billy),他是5'10“,还有一个我从未见过的同卵双胞胎,鲍比(Bobby)。尽管如此,我可以预测鲍比(Bobby)是5'10”,但是如果我给比利(Billy)高些,那就给他升降鞋,我不一定能预言比利会更高。
gung-恢复莫妮卡

您引用的示例只是一个糟糕的示例,这就是为什么它令人困惑的原因。推断与前提之间的区别肯定比“政治”更多。
理查德·哈迪

1

有很好的研究表明,借款人是否会偿还贷款的强有力的预测指标是他们是否使用毛毡保护地板不被家具腿刮伤。这个“感觉”变量将对预测模型产生明显的帮助,在该模型中,结果是偿还与违约。但是,如果放款人希望在此结果上获得更大的杠杆作用,他们会以为可以通过尽可能广泛地分布感觉来做到这一点而被遗忘。

“这个借款人有多大可能还款?” 是一个预测问题;“我如何影响结果?” 是因果推理问题。


-1

y = f(x)然后

预测(给定x的值是Y的值:如果x的特定值是Y的值

推论(y随x的变化而变化):如果x发生变化,会对Y产生什么影响

预测示例:假设y代表一个人的薪水,那么如果我们提供诸如经验,学历等输入作为输入变量,则我们的函数将预测员工的薪水。

推论示例:假设生活成本发生变化,那么薪水的变化是多少


我不知道为什么这个答案值得两票。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.