我正在阅读“ 统计学习入门 ”。在第二章中,他们讨论了估计函数的原因。
2.1.1为什么估计?
我们可能希望估计f有两个主要原因:预测和推断。我们依次讨论每一个。
我已经读了好几次了,但是我仍然对预测和推理之间的区别还不清楚。有人可以提供差异的(实际)示例吗?
我正在阅读“ 统计学习入门 ”。在第二章中,他们讨论了估计函数的原因。
2.1.1为什么估计?
我们可能希望估计f有两个主要原因:预测和推断。我们依次讨论每一个。
我已经读了好几次了,但是我仍然对预测和推理之间的区别还不清楚。有人可以提供差异的(实际)示例吗?
Answers:
推论:给定一组数据,您想推论如何根据数据生成输出。
预测:给定新的度量,您想使用现有的数据集来构建一个模型,该模型从一组结果中可靠地选择正确的标识符。
推论:您想了解年龄,旅客等级和性别对泰坦尼克号灾难的影响。你可以把一个逻辑回归和推断的效果每位乘客特性对生存率。
预测并不是围绕在输入和输出之间建立最准确的关系而进行的,准确的预测关心的是尽可能多地将新的观察结果放入正确的类中。
因此,“实际示例”大致可归结为以下差异:给定单个乘客的一组乘客数据,推论方法为您提供了幸存的可能性,分类器为您提供了生死之间的选择。
调整分类器是一个非常有趣且至关重要的主题,就像正确解释p值和置信区间一样。
通常,在进行数据分析时,我们会想到存在某种“数据生成过程”来生成数据,而推理则是指了解此过程的结构,而预测意味着能够实际预测来自该过程的数据。两者经常会合而为一,但并非总是如此。
简单的线性回归模型就是两者相辅相成的一个例子
想象一下,您是重症监护室的医生。您有一个发烧剧烈,给定的血细胞数量,给定的体重以及一百种不同的数据的患者,并且您想预测他或她是否要生存。如果是的话,他将把关于另一个孩子的故事隐瞒给他的妻子。
医生可以根据他所在单位以前的患者数据进行此预测。根据他的软件知识,他可以使用广义线性回归(glm)或通过神经网络(nn)进行预测。
关于glm的参数很多,因此要获得结果,医生将不得不做出假设(线性等),并决定哪些参数可能会产生影响。笑容会奖励他对每个参数的意义进行t检验,因此他可能会收集有力证据,表明性别和发烧会产生重大影响,体重不一定如此。
神经网络将吞并并消化以前患者样本中的所有信息。不管体重预测因素是否相关,也不会透露太多有关体重影响似乎仅在手头或一般样本中很重要的信息(至少在医生的专业知识水平上不重要)必须提供)。它将只计算结果。
选择哪种方法取决于您从哪个角度看待问题:作为一个患者,我更喜欢神经网络,它使用所有可用数据来最好地猜测我将要发生的事情,而没有诸如线性之类的强烈且明显错误的假设。作为想要在日记中显示一些数据的医生,他需要p值。医学非常保守:他们会要求p值。因此,医生想报告,在这种情况下,性别具有重大影响。对于患者而言,没关系,只要使用样本建议的最有可能的影响即可。
在此示例中,患者需要预测,医生的科学家方需要推断。通常,当您想了解系统时,推断就很好。如果您需要做出无法理解系统的决定,那么预测就足够了。
您并不孤单。阅读答案后,我不再感到困惑-不是因为我了解差异,而是因为我了解旁观者眼中的差异,并从口头上引出了差异。我现在确定这两个术语是政治定义,而不是科学定义。以书中的解释为例,大学试图将其解释为好书:“如果能看到河边的房子,那房子值多少钱?这是一个推断问题。” 从我的角度来看,这绝对是一个预测问题。您是民用建筑公司的所有者,并且您想要选择建造下一套房屋的最佳场地。您必须在同一城镇的两个位置之间进行选择,一个在河边,另一个在火车站附近。你想预测两个地点的价格。或者你想推断。您将要应用统计的确切方法,但是要为过程命名。:)
y = f(x)然后
预测(给定x的值是Y的值:如果x的特定值是Y的值
推论(y随x的变化而变化):如果x发生变化,会对Y产生什么影响
预测示例:假设y代表一个人的薪水,那么如果我们提供诸如经验,学历等输入作为输入变量,则我们的函数将预测员工的薪水。
推论示例:假设生活成本发生变化,那么薪水的变化是多少