假设XX和YY是随机变量。
令y 0y0为固定实数,例如y 0 = 1y0=1。然后,
ë [ X | ý = ÿ 0 ] = ë [ X | ÿ = 1 ]E[X∣Y=y0]=E[X∣Y=1]是一个
数:它是有条件的预期值的XX鉴于ýY具有值11。现在,请注意其他一些固定实数y 1y1,例如y 1 = 1.5y1=1.5, ë [ X | ý = ÿ 1 ] = ë [ X | ÿ = 1.5 ]E[X∣Y=y1]=E[X∣Y=1.5]将是条件预期值
XX给出 Ý = 1.5Y=1.5(实数)。没有理由假设 E [ X ∣ Y = 1.5 ]E[X∣Y=1.5]和 E [ X ∣ Y = 1 ]E[X∣Y=1]具有相同的值。因此,我们也可以将 E [ X ∣ Y = y]E[X∣Y=y]作为实数函数 g (y )g(y)
将实数 yy映射到实数 E [ X ∣ Y = y ]E[X∣Y=y]。请注意,在OP的疑问,声明 é [ X | ÿ = ÿ ]E[X∣Y=y]是的函数
Xx是不正确的: é [ X | ÿ = ÿ ]E[X∣Y=y]是的实值函数 ÿy。
在另一方面,ë [ X | ÿ ]E[X∣Y]是一个随机变量 ŽZ这恰好是一个函数的随机变量的ÿY。现在,每当我们写Z = h (Y )时Z=h(Y),我们的意思是,每当随机变量
YY碰巧具有值y时y,随机变量Z便Z具有值
h (y )h(y)。每当YY取值y时y,随机变量
Z = E [X ∣ Y ]Z=E[X∣Y]取值 E [ X ∣ Y = y ] = g (y )E[X∣Y=y]=g(y)。因此, E [ X ∣ Y ]E[X∣Y]只是随机变量 Z = g (Y )的别称Z=g(Y)。需要注意的是 Ë [ X | ÿ ]E[X∣Y]是一个功能 ŸY
(不 Ÿy作为OP的问题的声明)。
作为一个简单的说明性示例,假设
XX和YY是具有联合分布P (X = 0 ,Y = 0 )的离散随机变量
= 0.1 ,P (X = 0 ,Y = 1 )= 0.2 , P (X = 1 ,Y = 0 )=0.3 ,P (X =1 ,Y =1 )=0.4。 P(X=0,Y=0)P(X=1,Y=0)=0.1, P(X=0,Y=1)=0.2,=0.3, P(X=1,Y=1)=0.4.
注意,XX和YY分别是(依赖的)伯努利随机变量,其参数分别为0.70.7和0.60.6,因此E[X]=0.7E[X]=0.7
和E[Y]=0.6E[Y]=0.6。现在,请注意,条件为Y=0Y=0,XX是与参数伯努利随机变量0.750.75而空调上Ý = 1Y=1,XX是具有参数伯努利随机变量2323。如果您不明白为什么会这样,请计算出详细信息:例如
P(X=1∣Y=0)=P(X=1,Y=0)P (Y = 0 ) =0.30.4 =34,P (X = 0 ∣ Y = 0 )= P (X = 0 ,Y = 0 )P (Y = 0 ) =0.10.4 =14(P(X=1∣Y=0)=P(X=1,Y=0)P(Y=0)=0.30.4=34,P(X=0∣Y=0)=P(X=0,Y=0)P(Y=0)=0.10.4=14,
和P(X=1∣Y=1)P(X=1∣Y=1)和P(X=0∣Y=1)P(X=0∣Y=1)相似。因此,我们有
E[X∣Y=0]=34,E [ X ∣ Y = 1 ] = 23。E[X∣Y=0]=34,E[X∣Y=1]=23.
因此,E[X∣Y=y]=g(y)E[X∣Y=y]=g(y)其中g(y)g(y)是具有以下性质的实值函数:g(0)=34,g (1 )= 23。g(0)=34,g(1)=23.
另一方面,E [ X ∣ Y ] = g (Y )E[X∣Y]=g(Y)是一个随机变量
,其值为3434和2323的概率分别为0.4=P(Y=0)0.4=P(Y=0)和0.6=P(Y=1)0.6=P(Y=1)。注意,E[X∣Y]E[X∣Y]是离散随机变量,但不是伯努利随机变量。
最后,请注意
E [ Z ] = E [ E [ X ∣ Y ] ] = E [ g (Y )] = 0.4 × 34 +0.6×23 =0.7=E[X]。E[Z]=E[E[X∣Y]]=E[g(Y)]=0.4×34+0.6×23=0.7=E[X].
也就是说,仅使用Y的边际分布计算的Y的该函数的期望值恰好具有与E[X]相同的数值!这是一个更普遍的结果的例证,许多人认为这是一个LIE:
E[E[X∣Y]]=E[X]。YYE[X]E[E[X∣Y]]=E[X].
抱歉,这只是个小玩笑。LIE是“迭代期望法则”的首字母缩写,这是每个人都认为是事实的完全正确的结果。