线性回归,条件期望和期望值


11

好的,所以在一些事情上有些朦胧,任何帮助将不胜感激。据我了解,线性回归模型是通过条件期望来预测的

E(Y|X)=b+Xb+e
  1. 我们是否假设和都是具有未知概率分布的随机变量?据我了解,只有残差和估计的β系数是随机变量。如果是这样,例如,如果肥胖,年龄,如果我们采用条件期望含义,那么如果个体在整个样本中为,则肥胖的期望值是多少?对于那些观测值,只需取y的平均值(算术平均值)即可。但是,期望值不是必须将其乘以发生的概率吗?但是从这个意义上讲,我们如何找到的概率Y Y = X = E Y | X = 35 35 X = 35 XXYY=X=E(Y|X=35)35X=35X值变量是否代表年龄?
  2. 如果代表汇率之类的东西,会被归类为随机的吗?您究竟如何在不知道概率的情况下找到期望值?还是期望值等于极限中的平均值。X
  3. 如果我们不假设因变量本身就是随机变量,那么由于我们不推论概率,那么我们假设它们是什么?只是固定值之类的?但是如果是这种情况,我们如何以一个非随机变量为条件呢?关于自变量分布,我们假设什么?

很抱歉,如果没有任何意义或对任何人来说都是显而易见的。


1
回归系数是一个未知常数,而不是随机变量(至少在一个常客世界中)。β
理查德·哈迪

有条件的期望是什么意思?E(Y | X)仅表示给定X的Y,即X处的Y的期望值。说,y = 5 + x,那么您的E(Y | X = 5)为10。有条件的期望
Zamir Akimbekov '16

@RichardHardy,据我了解,由于B是beta采样分布的平均值,因此它是一个以正态分布为特征的随机变量。您是指人口模型吗?
William Carulli

是的,人口模型。
理查德·哈迪

1
@WilliamCarulli Richard指的是总体参数与估计参数之间的差异。估计的参数确实是一个随机变量,但是(未知)真实填充参数是固定值。
马修·德鲁里

Answers:


8

在线性回归基础的概率模型中,X和Y 随机变量。

如果是这样,例如,如果Y =肥胖,X =年龄,如果我们采用条件期望E(Y | X = 35)的含义,那么如果个体在整个样本中为35,则肥胖的期望值是多少?对于X = 35的那些观测值,仅取y的平均值(算术平均值)即可。

那就对了。通常,您不能期望在每个特定的X值处都有足够的数据,或者如果X可以采用连续的值范围,则可能无法做到。但是从概念上讲,这是正确的。

但是,期望值不是必须将其乘以发生的概率吗?

这是无条件期望和条件期望。他们之间的关系是E [ Y X = x ]E[Y]E[YX=x]

E[Y]=xE[YX=x]Pr[X=x]

这是总期望的定律。

但是从这个意义上讲,如果它代表年龄,那么我们如何找到X值变量出现的可能性呢?

通常,您不会进行线性回归。由于我们试图确定,所以我们不需要知道。P r [ X = x ]E[YX]Pr[X=x]

如果我们不假设自变量本身就是随机变量,那么由于我们不反对概率,那么我们假设它们是什么?只是固定值之类的?

我们确实假设Y是随机变量。思考线性回归的一种方法是将其作为的概率模型Y

YXβ+N(0,σ)

也就是说,一旦知道X的值,Y的随机变化就被限制为被乘数。N(0,σ)


非常感谢您的评论,极大地帮助了我。干杯。
William Carulli

@WilliamCarulli不客气!随时提出任何后续问题,我会尽力回答。如果我真的解决了您所有的问题,您也可以接受。
马修·德鲁里

3
这是一个好帖子。但是,我认为任何不承认(a)可以固定或(b)可能是随机变量(具有特定的独立性假设)的答案都不能真正解决问题中表达的关注。X
ub

@MatthewDrury,请澄清一下,如果我的因变量是汇率,而我的因变量是国内利率,那么
William Carulli

@ MatthewDrury @ MatthewDrury,请澄清一下,如果我的因变量是汇率,而我的因变量是国内利率,则E(E(汇率|利率))= E(汇率)=样本均值汇率?我想让我感到困惑的是,我总是假设期望是根据概率计算的,当通过矩阵代数求解线性回归时,我不认为将线性回归表示为条件期望的原因似乎与采用总体期望大不相同。
威廉·卡里

3

这个问题会有很多答案,但是由于您提出了一些有趣的观点,我仍然想添加一个答案。为简单起见,我仅考虑简单的线性模型。

   It is my understanding that the linear regression model
   is predicted via a conditional expectation E(Y|X)=b+Xb+e

简单线性回归分析的基本公式为: 该公式的含义是的平均值与的值呈线性关系。还可以注意到,期望值在参数和上也是线性的,这就是为什么将该模型称为线性的原因。该基本等式可以重写为: 其中是均值为零的随机变量:ÿ X β 0 β 1 Ŷ = β 0 + β 1 X + ε ε Èε = 0

Ëÿ|X=β0+β1个X
ÿXβ0β1个
ÿ=β0+β1个X+ϵ
ϵËϵ=0
Do we assume that both X and Y are Random variables with some unknown 
probability distribution? ... If we don't assume the independent variables 
are themselves random 

自变量可以是随机的或固定的。因变量总是随机的。ÿXÿ

通常,我们假设是固定数字。这是因为开发了回归分析并将其广泛应用于设计实验中,在该实验中的值以前是固定的。X{X1个Xñ}X

即使假定是随机的,和最小二乘估计的也相同,但是与固定的情况相比,这些估计的分布通常不会相同。β 1 X Xβ0β1个XX

if we take the conditional expectation E(Y|X=35) ... would we just take 
the average(arithmetic mean) of y for those observations where X=35?

在线性模型,你可以建立一个估计的简单的基础上,估计和,即: 如果模型将不同的权为单个因子的水平,则条件均值最小二乘估计量的表达式等于您描述的表达式。这些模型也称为单向方差分析,这是线性模型的一种特殊情况(不简单)。ëÝ|X=X β 0 β 1 φX= β 0+ β 1Xφ^XËÿ|X=Xβ^0β^1个

φ^X=β^0+β^1个X


1
这篇文章中的一些言论是不寻常的,可能会被误解。首先,该模型称为“线性”,因为它在参数中是线性的,而不在是线性的。第二,估计值和是随机变量,与假设无关。第三,您对条件期望的处理似乎将观察结果真实条件分布混淆了最后,对“无重复值”的引用令人困惑,因为它是无关紧要的。β 0 β 1 XXβ^0β^1个X
ub

1
@whuber“首先,该模型被称为“线性”,因为它在参数上是线性的”,我在解释方程式的含义,而不是“线性模型”中“线性”的含义。“估计β0和β1是随机变量,无论假定什么X”可以肯定,但这些随机变量的分布变化取决于你的方式对待X.
Mur1lo

1
@whuber我完全同意您的最后几点。我将编辑我的答案,以便您指出的所有问题都更加清楚。感谢您的反馈。
Mur1lo
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.