Answers:
非正式治疗
我们应该记住,我们以随机变量为条件的表示法虽然很经济,但却是不准确的。实际上,我们以这些随机变量生成的sigma-代数为条件。换句话说是指平均。这句话在“非正式处理”中看起来似乎不合适,但它提醒我们条件实体是集合的集合(当我们以单个值作为条件时,这就是一个单例集合)。这些集合包含什么?它们包含信息随机变量的可能值向我们提供关于实现可能发生的情况。
引入信息的概念,使我们能够以非常直观的方式考虑(并使用)迭代期望定律(有时称为“塔式属性”):
由两个随机变量生成的sigma-代数至少为大作为通过一个随机变量产生:在适当的集合论的含义。所以信息有关包含在至少等于的相应信息。
现在,作为记法影射,集合和。然后,我们正在看的方程式的LHS可以写成
口头描述上述表达式我们有:“什么是{预期增值的期望 Ÿ所提供的信息我X ž给},我们有可用的信息,我X只?”
我们可以以某种方式“考虑” 吗?不,我们只知道I x。但是,如果我们使用已有的东西(因为我们想解决的表达式使我们不得不这样做),那么我们本质上就是在期望运算符下说关于Y的事情,即说“ E (Y ∣ I x) ”,不再是-我们只是用尽了我们的信息。
因此,
如果没有其他人,我将返回接受正式治疗。
(更多)正式治疗
让我们看看关于概率论的两本非常重要的书,P。Billingsley的《概率与测度》(第3版,-1995年)和D. Williams的《概率与马丁格莱斯》(1991年),是如何证明“迭代期望法”的:
Billingsley将三行准确地用于证明。威廉姆斯,我引用说
“(塔楼物业)实际上是有条件期望的定义之初”。
那是一行文字。Billingsley的证明并非不透明。
它们当然是对的:条件期望的这一重要且非常直观的属性基本上直接(且几乎立即)来自其定义-唯一的问题是,我怀疑这个定义通常不是在外部概率中讲授的,或者至少不是突出显示的。或衡量理论界。但是为了在(几乎)三行中显示“迭代期望法则”成立,我们需要对条件期望进行定义,或者更确切地说,是对条件期望的定义属性。
让一个概率空间,和一个可积随机变量ÿ。让G ^是一个子σ的代数˚F,ģ ⊆ ˚F。然后存在一个函数W,它是G可测量的,可积分的(并且这是定义属性)
其中是集合G的指标函数。我们说W是(给定G的)Y的条件期望(“的一个版本”),我们写
W = E (Y ∣ G)
关键的细节,这里要注意的是,条件期望,有相同的预期值 Ÿ不,不只是在整个摹,但在每一个子集摹的摹。
(我现在将尝试介绍Tower属性如何从条件期望的定义中得出)。
是 G可测量的随机变量。然后考虑一些子 σ代数,说 ^ h ⊆ 摹。然后 ģ ∈ ħ ⇒ ģ ∈ ģ。因此,以与前面类似的方式,我们给定 H时得到 W的条件期望,即 U = E (W ∣ H)其特点是
由于,方程式[ 1 ]和[ 2 ]让我们
但这是给定H的的条件期望的定义性质。所以我们有权写
由于我们还通过构造 U = E (W ∣ H)= E ( E [ Y ∣ G ] ∣ H ),我们只用八行证明了Tower的性质或迭代期望法则的一般形式。
我了解有条件期望并教我的学生的方式如下:
条件期望是由相机以分辨率σ (X )拍摄的照片
正如Alecos Papadopoulos所提到的,符号比E [ Y | X ]。沿着摄像机的路线,人们可以将Y视为原始对象,例如风景,风景。E [ Y | σ (X ,Z )]是相机用分辨率σ (X ,Z )拍摄的图片。。期望是平均算子(“模糊”算子?)。场景中可能包含很多东西,但是您使用低分辨率的相机拍摄的照片肯定会使某些细节消失,例如,您的肉眼可以看到天空中有不明飞行物,但它并没有出现在由(iphone 3?)拍摄的照片中
如果分辨率如此之高,以至于,则该图片能够捕获真实风景的每个细节。在这种情况下,我们有E [ Y | σ (Ý )] = ÿ。
现在,可以将σ (X )]视为:使用分辨率低于σ (X ,Z )(例如iphone 3)的分辨率σ (X )的另一台照相机(例如iphone 3),并在由分辨率为σ (X ,Z )的摄像机,则应明确这张图片上的图片应该与您最初只是在风景上使用低分辨率的相机相同。
这提供了关于。实际上,这种直觉告诉我们E [ E [ Y | X ] | X ,Z ] = E [ Y | X ]仍然。这是因为:如果您的第一张照片是由iphone 1拍摄的(即低分辨率),而现在您想使用更好的相机(例如iphone 3)在第一张照片上生成另一张照片,那么您将无法使用可以提高第一张照片的质量。
在迭代期望法(IIc)的,,即内的期望是一个随机变量这恰好是的函数X,说克(X ),而不是一个Y的函数。那这个功能的期望X恰好等于的期望Ÿ是一个谎言的结果。挥舞着所有这些,只是断言可以通过对Y的平均值求平均值不同条件下的平均值。实际上,这仅仅是总概率定律的直接结果。例如,如果X和Y是具有联合pmf p X ,Y(x ,y )的离散随机变量,则 E [ Y ] 注意,最后期望如何相对于X; è[ÿ|X]是的函数X,而不是ÿ,但无论如何其平均值是一样的意思ÿ。
广义的谎言,你正在寻找在左侧 ,其中内期望是一个功能^ h (X ,Z ^ )的2个随机变量X和Z ^。该论点与上面概述的相似,但现在我们必须证明 随机变量E [ Y ∣ X ]等于另一个随机变量。我们通过查看E [ Y ∣ 当 X恰巧有值 X。跳过解释,我们得到 E [ Y ∣ X = x ] 注意,倒数第二个右侧是针对式条件预期值的随机变量的ë[ÿ|X,ž](的函数X和Ž) 空调上的值X。我们将X固定为x,将随机变量E[Y∣X
因此,对于随机变量X的每个值,随机变量E [ Y ∣ X ](我们前面提到的是X的函数,而不是Y的函数)的值与随机变量的值相同è [ è [ ÿ | X ,Z ^ ] | X ],也就是说,这两个随机变量是相等的。我会骗你吗?