Answers:
实际上,“预测”和“估计”有时在非技术写作中可以互换使用,并且它们的功能似乎相似,但是在统计问题的标准模型中它们之间存在明显的区别。 一个估算的数据来在参数估计而预测使用的数据在不是数据集的一部分,一些随机值猜测。 对于不熟悉统计中“参数”和“随机值”的含义的人,下面提供了详细的说明。
在该标准模型中,假定数据构成一个随机变量X的(可能是多变量)观察值,该变量的分布仅已知为位于一组可能的分布中,即“自然状态”。一个估计吨是一个数学过程指派到的每个可能值X一些属性吨(X)自然状态的θ,例如它的平均值μ (θ )。因此,估计是对自然真实状态的猜测。 我们可以通过比较t (x)来判断估计值有多好 到。
甲预测 是关于另一个随机变量的独立观察ž其分布与性质的真实状态。 预测是对另一个随机值的猜测。 我们仅通过将p (x)与Z实现的值进行比较就可以知道特定的预测有多好。我们希望平均而言,协议会是好的(就所有可能的结果x以及同时对所有可能的Z值求平均值的意义而言)。
普通最小二乘法提供了标准示例。 数据由将因变量值y i与自变量值x i关联的对组成。自然状态是由三个参数指定的α,β,和σ:它说,每个ÿ 我就像是从均值的正态分布的独立拉伸α + β X 我和标准偏差σ。 α,β和是被认为是固定且不变的参数(数字)。兴趣集中在 α(截距)和 β(斜率)上。该OLS估计,书面(α,β),是良好的,即 α趋于接近 α和 β趋于接近 β,不管是什么真正的(但未知)值 α和 β可能是。
OLS 预测包括观察与自变量的某个值x相关联的因变量的新值。 x可能或可能不在数据集中的x i中;那无关紧要。一个直观的良好预测是,这个新的价值很可能是接近α + β X。更好的预测是说新值可能有多接近(它们称为“ 预测间隔”)。他们占的事实,α和β是不确定的(因为它们在数学上取决于随机值(Ý 我)),即σ没有为某些已知的(并且因此必须被估计),以及假设ÿ (X )具有正态分布用标准偏差σ和平均值α + β X(注不存在任何帽子!)。
特别要注意的是,这种预测有两个独立的不确定性来源:数据不确定性导致估计的斜率,截距和残余标准偏差(σ)的不确定性;此外,Y (x )的值会出现不确定性。这种额外的不确定性-因为Y (x )是随机的-表征了预测。的预测可能看起来像的估计(毕竟,α + β X估计α :-)甚至可能有非常相同的数学公式( p (X)有时可以是相同吨(X)),但它会与不确定性比估计的用量更大。
然后,在OLS的示例中,我们清楚地看到了区别:估计值猜测参数(固定但未知数),而预测值猜测随机量的值。潜在混淆的根源在于,预测通常基于估计的参数,甚至可能具有与估计器相同的公式。
在实践中,您可以通过两种方式将估算器与预测器区分开:
目的:估算者试图了解自然的真实状态的特性,而预测则试图猜测随机变量的结果;和
不确定性:由于该随机变量的结果增加了不确定性,因此预测器通常比相关的估计器具有更大的不确定性。因此,有据可查并经过充分描述的预测变量通常带有不确定性范围(预测区间),其不确定性范围比估计量的不确定性范围(称为置信区间)宽。预测区间的一个特征是,随着数据集的增长,它们可以(假设地)缩小,但不会缩小到零宽度-随机结果的不确定性是“不可约的”-而置信区间的宽度倾向于缩小到零,这符合我们的直觉,即只要有足够的数据量,估算的精度就可以任意提高。
在将其应用到评估潜在投资损失,首先要考虑的宗旨:你想知道有多少你实际上可能会失去这个投资(或这在一定期间内投资的特定篮),或者是你真的只是猜测是什么预期的损失(也许是在大量投资中)?前者是一个预测,后者是一个估计。然后考虑不确定性。如果您拥有几乎无限的资源来收集数据和执行分析,那么答案将如何变化?如果它变得非常精确,则可能是在估计投资的预期回报,而如果您对答案仍然不确定,那就在做出预测。
因此,如果您仍然不确定要处理的是哪种动物,请向您的估计器/预测器询问:这可能有多严重?为什么? 通过条件(1)和(2),您将知道自己所拥有的。
型号没有区别。确实,所采取的行动存在(轻微)差异。估计是使用数据(AI术语中的“学习”)对概率模型的校准。预测是对未来观察的“猜测”。假设这种“猜测”是基于过去的数据-这可能是一种估计;如预测下一人的身高,你将要使用的相遇估计在群体中的平均高度。但是请注意,预测并不总是估计的一个实例。您即将遇到的下一个人的性别并不是经典意义上的人口参数;预测性别可能需要一些估算,但还需要更多...
在有风险的情况下,由于您的预测损失是损失的估计预期,因此预测和估计是重合的。
通常, “估计”保留用于参数,而“谓词”保留用于值。但是,有时区分会变得模糊,例如,您可能会看到诸如“明天估计价值”之类的东西,而不是“明天预测价值”之类的东西。
风险价值(VaR)是一个有趣的案例。VaR不是参数,但是我们不会说“预测VaR”。我们说“估计VaR”。为什么?
如果您知道分布,并且需要知道分布以计算VaR ,则VaR不是随机量的原因。因此,如果您使用的是参数VaR方法,则首先要估计分布的参数,然后计算VaR。如果您使用的是非参数VaR,则可以直接估算 VaR,类似于估算参数的方式。在这方面,它类似于分位数。
另一方面,损失量是随机值。因此,如果要求您预测损失,那么您将无法预测损失。再一次,有时我们说“估计”损失。因此,正如我先前所写,这条线是模糊的。
我发现以下定义更具解释性:
估计是计算得出的结果近似值。此结果可能是预测,但不一定。举例来说,假设前往马林(Marin)的三条车道已满载,每辆车占用30英尺的空间,而桥长9000英尺,我可以估计昨天下午5点在金门大桥上的汽车数量为900辆( 9000/30 x 3 = 900)。
外推法是通过假设估计值遵循已知值的某种模式来估计变量在已知值范围之外的值。最简单,最流行的外推形式是根据已知数据估算线性趋势。线性外推的替代方法包括多项式和圆锥外推。像估计一样,外推法可用于预测,但不仅限于预测。
预测只是在谈论未来。预测通常关注结果,而不是结果的途径。例如,我可以预测到2050年所有车辆都将由电动机驱动,而无需说明我们如何从2011年的低采用率到2050年完全采用。如上例所示,预测不一定基于数据。
预测是进行预测或预测的过程。预测和预测一词经常互换使用,但有时预测与预测有所不同,因为预测通常提供对结果途径的解释。例如,电动汽车的采用预测可能包括遵循S形采用模式的全电动汽车采用的途径,即2025年之前很少有汽车是电动的,拐点出现在2030年且采用率很快,而大多数汽车是电动的。 2040年。
估计,外推,预测和预测不是互相穷举,也不是集体穷举。对复杂问题的良好长期预测通常需要使用外推法以外的其他技术,以便得出合理的结果。无需任何计算出的估计值,也可以进行预测和预测。