在机器学习的背景下,“推理”和“估计”之间有什么区别?
作为一个新手,我觉得我们可以推断随机变量并估计模型参数。我的理解正确吗?
如果没有,确切的区别是什么,我应该何时使用?
另外,“ learn”的同义词是什么?
在机器学习的背景下,“推理”和“估计”之间有什么区别?
作为一个新手,我觉得我们可以推断随机变量并估计模型参数。我的理解正确吗?
如果没有,确切的区别是什么,我应该何时使用?
另外,“ learn”的同义词是什么?
Answers:
对推断的整个集合进行统计推断,可以从给定的数据集和相关的假设模型中得出结论,包括所述模型的拟合度。要引用维基百科,
推论是从已知或假定为真实的前提中得出逻辑结论的行为或过程。
和,
在存在不确定性的情况下,统计推论使用数学得出结论。
估计只是推论的一个方面,其中一个推论是根据数据(以及关于这些参数的先验信息)用最优解替换未知参数(与生成数据的假设模型相关)。它应始终与对所报告估计的不确定性进行评估相关联,评估是推断的组成部分。
最大似然是估计的一种情况,但它并不涵盖整个推断。相反,贝叶斯分析提供了完整的推理机。
虽然估计本身旨在得出未知参数的值(例如,逻辑回归中的系数,或支持向量机中分离的超平面中的系数),但统计推断尝试将不确定性和/或概率陈述的度量附加到参数值(标准误差和置信区间)。如果统计学家假设的模型大致正确,那么只要新的传入数据继续符合该模型,则不确定性陈述中可能包含一些真实性,并提供衡量使用错误概率的频率。做出决策的模型。
当样本被分为训练部分和验证部分时,机器学习最接近的是交叉验证,后者有效地表示:“如果新数据看起来像旧数据,但是与新数据完全不相关,是用来建立我的模型的,那么对错误率的现实衡量就是如此。” 它是通过对数据运行相同的模型完全凭经验得出的,而不是通过做出统计假设并涉及任何数学结果(如上述CLT)来推断模型的属性。可以说,这是更诚实的说法,但是由于它使用的信息较少,因此需要更大的样本量。而且,它隐式地假设过程没有改变,
尽管“推断后验”一词可能是有道理的(我不是贝叶斯人,但我无法真正说出公认的术语是什么),但我认为在推断步骤中进行任何假设都不会涉及太多。所有贝叶斯假设都是(1)在先验模型中(2)在假设模型中,一旦建立,后验将自动跟随(至少在理论上是通过贝叶斯定理;实际步骤可能非常复杂,并且Sipps赌博...对不起,Gibbs采样可能是到达那个后验的相对容易的组成部分。如果“推断后验”是指(1)+(2),那么这对我来说是一种统计推断。如果(1)和(2)分别陈述,然后“推断后验”是另一回事,那么我不会
这是试图为没有统计学背景的任何人提供答案。对于那些对更多细节感兴趣的人,有很多关于该主题的有用的参考文献(例如该参考文献)。
简短答案:
长答案:
术语“估计”通常用于描述查找未知值的估计的过程,而“推论”通常是指统计推论,发现随机变量的分布(或特征)并使用它们得出结论的过程。
考虑回答以下问题:我国的普通人有多高?
如果您决定查找估算值,则可以走几天,测量一下在街上遇到的陌生人(创建样本),然后计算估算值,例如作为样本平均值。您刚刚做了一些估算!
另一方面,您可能想找到更多估计值,您知道这是一个数字,注定是错误的。您可能希望以一定的信心回答这个问题,例如:我99%可以肯定,我国一个人的平均身高在1.60m至1.90m之间。
为了提出这样的主张,您需要估计正在遇见的人的身高分布,并根据此知识(即统计推断的基础)得出结论。
需要牢记的关键一点(正如西安的答案所指出的)是,找到一个估计量是统计推断的一部分。
我想通过扩展“推断”部分来增加其他人的答案。在机器学习的背景下,推理的一个有趣方面是估计不确定性。ML算法通常很棘手:如何在神经网络或决策树吐出的分类标签上放置标准差?在传统统计中,分布假设使我们能够进行数学运算并弄清楚如何评估参数的不确定性。在ML中,可能没有参数,没有分布假设或两者都不存在。
在这些方面已经取得了一些进展,其中一些是最近的(比当前的答案要新)。正如其他人提到的那样,一种选择是贝叶斯分析,您的后验可为您提供不确定性估计。Bootstrap类型的方法很好。斯坦福大学的Stefan Wager和Susan Athey在过去的几年中开展了一些工作,以推断随机森林。类似地,BART是一种贝叶斯树集成方法,该方法产生后验,可以从中得出推断。