什么时候不能用均值替换随机变量?


10

建模和仿真中经常要进行的简化是用平均值代替随机变量。

这种简化何时会导致错误的结论?


2
“ Var”代表变量方差风险价值吗?
亨利

3
启动一项为其会员的Netflix订阅付费的服务会很有趣。我们只收取,其中是在域随机选择的,所以知道,免费Netflix!稍后,我们将为一些客户提供选择,而不是支付。|x| USDmonthx[100,100]x2 USDmonth
纳特

3
在一个非常简单的情况下,如果我们将其推向极致,我们可能会丢失几乎所有我们关心的信息。考虑X上Y的回归,我们用均值替换了Y和X。有关坡度的任何信息现在都将丢失。
戴森

1
您是要替换缺失值,还是要在特定情况下替换随机变量(例如,基于随机效应模型进行预测)?
IWS

Answers:


20

如果用某个点估计值替换缺失值,则将忽略其所有可变性。因此,您不会将所有原始可变性传播到模型。您的参数估计值似乎具有太低的。如果进行推断,则p值将偏低。您的 s太窄。如果您进行预测,则您的将会太窄。

总体而言:您将过于肯定自己的结论。


2
好答案!考虑一下这种方式:随机变量具有分布。可以向左,向右倾斜。我可以是双峰的,等等。通过将变量减小为平均值,您可以删除所有额外的信息(不确定性),并通过单点估计替换分布(间隔)。
十一美元,2017年

1
如果用某个点估计值替换缺失值,则还假设数据是随机缺失的。缺失时,随机变量的平均值可能不等于数据的平均值。
Neil G

@NeilG对nitpick表示歉意,但是用均值替换缺失值并不直接意味着假设数据随机丢失。特别是由于围绕数据丢失的术语(有些令人困惑)认为“随机丢失”是指以其他但已知数据条件而随机丢失的数据en.wikipedia.org/wiki/Missing_data)。IMO,替换数据的方式并不暗示其背后的原因。该推理应明确,并导致处理丢失数据的适当方法。也就是说,我完全同意斯蒂芬的回答。
IWS

@IWS缺失指标以观察到的数据为条件很好。随机缺失意味着缺失指标取决于未观察到的数据。如果将变量替换为以观察条件为条件的平均值,则该变量可能与其无条件平均值不同-除非随机丢失数据。
Neil G

@NeilG 当您在最后一条评论的最后一句中写“随机丢失”时,您不是说“ 完全随机丢失”吗?如果是这样,我们确实同意,但是我只是在挑剔术语。(请参阅我在上面的评论中放入的Wiki页面,我一直都被教导,阅读和使用该术语)
IWS

13

除了斯蒂芬的观点:

  • 在几乎您对随机变量的非线性函数感兴趣的任何应用中,用均值代替通常会引入偏差,甚至可能产生矛盾的结果。粒子的平均速度和平均质量通常与平均动能不一致,因为能量随V ^ 2缩放。
  • 平均值甚至可能不是随机变量的可能结果。如果我的可能结果是0个“患者死亡”和1个“患者生命”,那么将患者描述为0.1“大部分死亡但略微存活”的模型可能没有帮助。


1
@Alexis,但当然!
杰弗里·布伦特

0

在金融市场上一个真实的例子(与您得到的两个答案有关)。期权的价格基于资产的价格高于(或低于)给定水平的概率。

例如,当资产的期望值为80时,以100的价格购买资产的期权的价格。如果用均值替代随机变量(资产价格),则价格为零(如您永远不会以100的成本购买80的资产)。如果考虑到资产的随机性(这是正确的做法),您将获得正价,因为资产价格有可能超过100。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.