代数的条件期望的直觉


20

让是一个概率空间,给定一个随机变量和 -代数我们可以构造一个新的随机变量,这是条件期望值。(Ω,F,μ)ξ:ΩRσGFE[ξ|G]


考虑的直觉到底是什么?我了解以下几点的直觉:E[ξ|G]

(i) 其中是一个事件(概率为正)。E[ξ|A]A

(ii) 其中是离散随机变量。E[ξ|η]η

但是我无法可视化。我了解它的数学原理,并且了解它的定义方式是概括我们可以看到的更简单的情况。但是,尽管如此,我认为这种思维方式没有用。它对我来说仍然是一个神秘的对象。E[ξ|G]


例如,让为的事件。形成 -algebra,由生成。那么等于如果等于如果。换句话说,如果,而如果。Aμ(A)>0σG={,A,Ac,Ω}AE[ξ|G](ω)1μ(A)AξωA1μ(Ac)AcξωAE[ξ|G](ω)=E[ξ|A]ωAE[ξ|G](ω)=E[ξ|Ac]ωAc

令人困惑的部分是,所以为什么我们不只写?我们为什么要更换通过根据是否不,但不允许替换通过?è [ ξ | G ] ω = E [ ξ | Ω ] = E [ ξ ] E [ ξ | G ] E [ ξ |  或  Ç ] ω ∈ é [ ξ | G ] E [ ξ ]ωΩE[ξ|G](ω)=E[ξ|Ω]=E[ξ]E[ξ|G]E[ξ|A or Ac]ωAE[ξ|G]E[ξ]


注意。在回答这个问题时,请不要使用条件期望的严格定义对此进行解释。我明白那个。我想了解的是,条件期望应该计算什么,为什么我们拒绝一个代替另一个。

Answers:


16

考虑条件表示的一种方法是作为对代数的投影。ģσG

在此处输入图片说明来自维基共享资源

当谈论平方可积随机变量时,这实际上是严格正确的。在这种情况下,实际上是随机变量在的子空间上的正交投影,该子空间包含相对于可测量的随机变量。实际上,通过近似随机变量,对于随机变量在某种意义上甚至是正确的。ξE[ξ|G]ξģ 大号1 大号2L2(Ω)GL1L2

(请参阅注释以获取参考。)

如果人们认为代数代表了我们可获得的信息量(这种解释在随机过程理论中是必需的),则代数越大意味着可能发生的事件越多,因此关于可能的结果的信息也就越多代数意味着更少的可能事件,因此也更少了有关可能结果的信息。σ - σ -σσσ

因此,将可测量的随机变量投影到较小的代数意味着,鉴于提供的信息较为有限,因此我们最好地猜测的值。。Fσ - G ^ ξ ģξσGξG

换句话说,仅给出的信息,的全部信息,在严格意义上是我们最好的可能猜出随机变量是什么。GE [ ξ | G ] ξFE[ξ|G]ξ


关于您的示例,我认为您可能会混淆随机变量及其值。随机变量是一个函数,其域是事件空间;它不是数字。换句话说,,而对于,。X Ω →交通- [R X { ˚F | f Ω RXX:ΩRω Ω X ω [RX{f | f:ΩR}ωΩX(ω)R

在我看来,条件期望的表示法确实很糟糕,因为它本身就是一个随机变量,也就是一个函数。相反,随机变量的(常规)期望是数字。对随机变量的条件期望与对相同随机变量的期望完全不同,即甚至不对 “类型检查”。E [ ξ ]E[ξ|G]E[ξ]

换句话说,使用符号表示常规和有条件的期望是对符号的极大滥用,这会导致很多不必要的混乱。E

话虽如此,请注意是一个数字(随机变量的值是,但是是一个随机变量,但由于它是 -algebra ,因此它是一个常量随机变量(即小简并并)。由生成,是微不足道的/简并的,然后从技术上讲,此常量随机变量的常量值为,其中E [ ξ | ģ ] ω ë [ ξ | Ω ] σ ΩE[ξ|G](ω)E[ξ|G]ωE[ξ|Ω]σΩë [ ξ ] ë{,Ω}E[ξ]E 表示常规期望,因此表示数字,不是条件期望,因此不是随机变量。

您似乎也对含义感到困惑;从技术上讲,只能以代数而不是单个事件为条件,因为概率测度仅在完整的代数上定义,而不是在单个事件上定义。因此,只是简写(懒惰),其中代表生成的代数通过事件,即。注意 ; 换句话说,,σ - σ - è [ ξ | A ] E [ ξ | σ A ] σ A σ - A { A A cΩ } σ A = G = σ A cE [ ξ | ] èE[ξ|A]σσE[ξ|A]E[ξ|σ(A)]σ(A)σA{,A,Ac,Ω}σ(A)=G=σ(Ac)E[ξ|A]E [ ξ | Ç ]E[ξ|G]和都是表示同一对象的不同方法。E[ξ|Ac]

最后,我只想补充一下,我上面给出的直观解释解释了为什么随机变量只是数字 -代数代表我们可能拥有的最少信息量,实际上基本上没有任何信息,因此在这种极端情况下,我们可以对哪个随机变量是常量随机变量进行最佳猜测,常量变量的常量值为。ë [ ξ ] σ -E[ξ|Ω]=E[ξ|σ(Ω)]=E[ξ|{,Ω}]E[ξ]σξ ë [ ξ ]{,Ω}ξE[ξ]

请注意,所有常量随机变量都是随机变量,并且它们对于琐碎 -algebra都是可测量的,因此,的确,我们确实具有常量随机是在的子空间上的正交投影,该子空间由相对于可测量的随机变量组成,如所要求的。 σ { Ω } ë [ ξ ] ξ 大号2Ω { Ω }L2σ{,Ω}E[ξ]ξL2(Ω){,Ω}


2
@William对于将用作运行变量,我不同意您的看法。许多书将定义为数字,而不是变数。这是的最佳估计。这是一个有用的概念,并且非常直观。从教学的观点来看,完全无视它,只是因为您具有cond exp作为ran var的广义概念是错误的。我对rv是什么并不感到困惑,也看不出我写的任何内容都会导致您这样思考。E [ ξ | A ]E[ξ|A]E[ξ|A]ξ|A
Nicolas Bourbaki

1
@William 我以前曾说过,我想将cond expe作为对以表示信息的ran var的估计,但是我从没有考虑那么多,而是试图找到一种不同的可视化cond expec的方式。根据您的建议,我将写一个简单的示例,并作为自己和其他人的答案发布。也许,有些人然后可以详细说明我的示例,并给出一个更奇特的示例。G
Nicolas Bourbaki

1
@NicolasBourbaki我建议您看一下Durrett的《概率论-理论与范例》第四版的221页。我也可以推荐您参考其他讨论此问题的资料。在任何情况下,这实际上都不是问题,在大多数情况下,条件期望是一个随机变量,并且仅针对代数执行条件;关于事件的条件是关于事件生成的代数的条件,而关于随机变量的条件是通过RV生成的代数的条件σ - σσσσ
-Chill2Macht

3
@William我可以向您介绍定义cond的资源。例。事件的实数。我不知道你为什么如此停留在这一点上。只要不混淆概念,就可以用任何方式定义它。出于教学上的原因,教授关于概率的课程。理论,并立即跳入最一般的定义,并不能说明问题。无论哪种情况,在本次讨论中都没关系,您的投诉与符号/语义有关。
Nicolas Bourbaki

1
@NicolasBourbaki惠特尔的《通过期望概率》第5章很好地说明了条件期望的两种特征,并很好地解释了每种定义与另一种定义之间的关系和动机。没错,区别是语义上的又一个。我对更笼统的定义的热情源于(我认为)是通过阅读本章(Whittle的“ 通过期望概率”中的第5章),该章使(我相信)关于更笼统的定义在某些方面更易于理解的良好论据。
Chill2Macht

3

我将尝试阐述威廉的建议。

令为抛硬币两次的样本空间。定义运行。变种 为数字。实验中出现的脑袋数。显然,。一种关于思维的思维方式。值表示为的最佳估计。如果我们不得不猜测将取什么值,我们将猜测。这是因为对于任何实数。ξ ë [ ξ ] = 1 1 ξ ξ 1 ë [ ξ - 1 2ΩξE[ξ]=11ξξ1E[(ξ1)2]E[(ξa)2]a

用表示第一个结果是正面的情况。令为 -alg。gen。由。我们认为代表了第一次抛球后我们所知道的。第一次抛球后,要么出现头,要么没有头。因此,我们在第一次掷球之后处于事件或。G = { A A cΩ } σA={HT,HH}G={,A,Ac,Ω}σģÇAGAAc

如果我们在事件,然后为最佳估算是,如果我们在事件,那么最好的估计是。ξ è [ ξ | ] = 1.5 ÇAξE[ξ|A]=1.5Acë [ ξ | A c ] = 0.5ξE[ξ|Ac]=0.5

现在定义运行。变种 为或具体取决于。跑了 变种 因为,所以比更好。1.5 0.5 ω ∈ η 1 = ë [ ξ ] ë [ ξ - η 2 ] ë [ ξ - 1 2 ]η(ω)1.50.5ωAη1=E[ξ]E[(ξη)2]E[(ξ1)2]

什么正在做的是提供问题的答案:什么是最好的估计第一折腾?因为我们不知道第一次投掷后的信息,将取决于。一旦向我们揭示了事件,在第一次抛掷之后,就确定了的值,并为提供了最佳的估计。 ξ η ģ η ξηξηAGηξ

使用作为自己的估计,即的问题如下。第一次折腾后的定义不明确。假设实验的结果是,第一个结果是正面,我们在事件,但是我们不仅仅从一开始就知道该值对我们来说是模棱两可的,因此的定义不明确。更正式地说,我们说不是可测量的,即,它的值在第一次抛掷之后并没有明确定义。因此,是的最佳估计0 = ë [ ξ - ξ 2 ] ë [ ξ - η 2 ] ξ ω ξ ω = ξ0=E[(ξξ)2]E[(ξη)2]ξωAξ(ω)=?ξ ģ η ξξξGηξ 第一次折腾之后。

也许,这里的人可以使用样本空间提出一个更复杂的示例,其中,而一些非平凡的代数。ξ ω = ω ģ σ[0,1]ξ(ω)=ωGσ


1

尽管您要求不使用形式定义,但我认为形式定义可能是解释它的最佳方法。

维基百科-条件期望

然后X的条件期望给定,表示为,是任何满足以下要求的函数(): EX HHE(XH) Ω→交通 ř ÑHΩRn

HE(XH)dP=HXdPfor eachHH

首先,它是一个可测量的函数。其次,它必须匹配每个可测量(子)集的期望。因此,对于一个事件A,西格玛代数是,因此很显然,它是按您为指定的问题进行设置的。类似地,对于任何离散随机变量(及其组合),我们列出所有原始事件并在给定原始事件的情况下分配期望值。ħ {ÇΩ}ω∈/ÇHH{A,AC,,Ω}ωA/Ac

现在考虑无限次抛硬币,每次抛i时,您将获得,如果硬币是尾巴,则总奖金为,其中 = 1表示尾部,0表示头部。那么X是上的实数随机变量。抛硬币n次后,您知道X的精度为,例如,抛硬币2次后,X的值为[0,1 / 4],[1 / 4,1 / 2],[1/2, 3/4]或[3 / 4,1]-每次抛硬币后,关联的sigma代数就越来越小,同样,对X的条件期望也越来越精确。 X = Σ = 1 11/2iÇ[01]1/2ÑX=i=112icici[0,1]1/2n

希望这个带有sigma代数序列的实值随机变量示例越来越精细(过滤)使您摆脱了习惯于纯粹基于事件的直觉,并阐明了其目的。


我深表歉意,但是我否决了这个问题。它不能回答我最初的要求。它也没有提供我以前不知道的任何新信息。
Nicolas Bourbaki

我要向您建议的是,您不像您认为的那样理解正式定义(正如其他答案也建议的那样),因此,除非您对正式定义不理解,否则就不会进步。
seanv507'9

我了解正式定义很好。我提出的问题,我知道如何从正式定义中回答。“其他答案”试图在不使用con的定义的情况下解释我的问题。实验
Nicolas Bourbaki
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.