什么是“随机变量”?


Answers:


35

随机变量是其值取决于未知事件的变量。我们可以将未知事件概括为“状态”,然后随机变量是状态的函数。

例:

假设我们有三个掷骰子(D 2D 3)。然后状态S = D 1D 2D 3d1个d2d3小号=d1个d2d3

  1. 一个随机变量是5s的数量。这是:X

X=d1个=5+d2=5+d3=5
  1. 另一个随机变量是掷骰的总和。这是:ÿ

ÿ=d1个+d2+d3

感谢您简洁明了的回答。这就提出了一个关于将未知状态与结果分离的目的的问题(我猜这是在概率论中如何称呼“随机变量”的域和范围)。似乎叫未知状态a sample我要求将其与结果区分开。为什么您需要引入一个函数并将其称为随机变量,尽管它绝对是确定性的,而根本不是变量?为什么不能立即采样结果?
2014年

2
当“事件”变为“已知”时,随机变量会发生什么?根据此答案,它不再存在!这个答案依赖于诸如“已知”这样的模糊主意,纯粹是主观的,这使得它不能令人满意地定义或解释随机变量。
ub

1
@whuber英语和其他人类语言肯定是不准确的。看来您实际上是在选择“依赖”这个词,而不是“已知”。“是...的函数”更为精确,但是“未知事件”却含糊其词,因此数学家定义了“概率空间”,“ sigma代数”,“可测量函数”等。如果需要更严格的处理,请参阅Wikipedia拥有它: en.wikipedia.org/wiki/Random_variable
Paul

1
@whuber虽然Wikipedia急于使用数学术语来获得精度,但我注意到您的回答是一个不错的外行例子,尽管值得一读,但需要执行大约16段。但是,要告诉一个想要5秒钟才能读完答案的大学生呢?客户欣赏简洁的定义。
保罗,

5
这是概率空间上的可测量实值函数。使用“可衡量的”,“实值函数”和“概率空间”这三个技术术语中的每一个,我估计我损失了90%的潜在受众,实际上只有0.1%的人理解和欣赏了该定义。顺便说一句,这纯粹是数学定义。直到有人指定如何将其应用于实际的统计问题之前,它是无用的,但至少是正确的(如果不是完全通用的话)。
ub

69

介绍

在考虑最近的评论时,我注意到到目前为止,所有答复都受到使用不确定变量(如“变量”)和模糊术语(如“未知”)或对技术数学概念(如“函数”和“概率空间”)的吸引力的困扰。我们要对非数学的人说些什么,他们想要一个简单,直观但准确的“随机变量”定义?在对随机现象的简单模型进行了一些初步介绍之后,我提供了一个足够短的定义以适合一行。由于可能无法完全满足要求,因此后面将说明如何将其扩展到常规技术定义。

盒子里的票

解决随机变量背后的想法的一种方法是诉诸于随机票证模型。该模型用装满票的盒子代替了实验或观察。每张票上都写有实验的可能结果。(结果可以很简单,但实际上,它是更复杂的事情,例如股票价格的历史记录,长时间实验的完整记录或文档中所有单词的顺序。)所有可能的结果在票证中至少出现一次;一些结果可能会出现在许多票证上。

我们没有实际进行实验,而是彻底但盲目地想象-将所有票混合并仅选择一张。如果我们能够证明真实的实验应该像这样进行,那么我们已经将潜在的复杂(且昂贵且冗长)的真实实验简化为简单,直观,思考的实验(或“统计模型” ”)。此模型提供的清晰性和简单性使分析实验成为可能。

一个例子

标准示例涉及扔硬币和骰子以及抽出纸牌的结果。这些问题的琐碎性在一定程度上分散了人们的注意力,因此为了说明一下,假设我们对2016年美国总统大选的结果感到担忧。为简化起见,我假设两个主要政党之一-共和党(R)或民主党(D)-将获胜。因为(使用当前可用的信息)结果不确定,我们可以想象将票放入一个盒子中:其中一些上面写有“ R”,而其他上写有“ D”。我们的结果模型是从此框中准确抽取一张票。

缺少一些东西:我们尚未规定每个结果有多少张票。实际上,找到答案是统计学的主要问题:基于观察(和理论),框中每个结果的相对比例可以说些什么?

(我希望这是明确的比例中的每种箱子票的确定它的性质,而不是每张门票的实际人数的比例被定义-像往常一样-是各种票除以的数例如,一个包含一张“ D”票和一张“ R”票的盒子的行为就与具有一百万张“ D”票和一百万张“ R”票的盒子的行为完全相同,因为在两种情况下,每种门票总数的50%,因此,在门票完全混合后,每张都有50%的机会被抽奖。)

使模型量化

但是,我们不要在此提出这个问题,因为我们已接近定义随机变量的目标。到目前为止,该模型的问题在于它无法量化,而我们希望能够用它来回答量化问题。我也不是说琐碎的问题,而是真实而实际的问题,例如“如果我的公司在美国近海化石燃料开发上投资了10亿欧元,那么该投资的价值将因2016年大选而改变多少? ?在这种情况下,该模型是如此简单,以至于我们无法对这个问题做出切合实际的答案,但是我们甚至可以咨询经济人员,并征询他们对两种可能结果的看法:

  1. 如果民主党获胜,投资会改变多少?(假设答案是美元。)d

  2. 如果共和党获胜,它将改变多少?(假设答案是美元。)[R

答案是数字。要在模型中使用它们,我将要求我的工作人员浏览框中的所有票证,并在每张“ D”票证上写下“ 元”,在每张“ R”票证上写下“ r元”。现在,我们可以清晰,定量地对投资的不确定性进行建模:其选举后的价值变化与接收从该框中随机抽取的一张彩票上所写的金额相同。d[R

此模型可帮助我们回答有关投资的其他问题。例如,我们应该如何不确定该投资的价值?尽管存在针对此不确定性的(简单)数学公式,但只要重复使用我们的模型(可能超过一千次),以查看实际发生了哪些结果并衡量其分布,我们就可以合理准确地重现它们的答案。 票证即用模型为我们提供了一种对不确定结果进行定量推理的方法。

随机变量

为了获得有关不确定或可变现象的定量答案,我们可以采用盒中票的模型,并在票上写上数字。 这个写数字的过程只需要遵循一个规则:它必须是一致的。在此示例中,每张民主党票都必须写上“ 美元”(无例外),而每张共和党票都必须写上“ r美元”。d[R

一个随机变量是在一个盒子票写号的任何一致的方式。

(为此,数学符号是为重编号过程起个名字,通常以大写拉丁字母(例如Y)开头。写在票证上的识别信息通常以小写字母命名,通常为ω(小写希腊字母“ omega” ),通过随机变量X与票据ω相关联的值表示为X ω ,然后在示例中,我们可以说类似“ X是代表投资价值变化的随机变量”之类的东西。将通过声明X D =完全指定XÿωXωXωX X R = r。在更复杂的情况下, X的值由更复杂的描述给出,通常由公式给出。例如,票证可能表示某股票一年的收盘价,而随机变量 X可能是该股票某些衍生产品在特定时间的价值,例如看跌期权。期权合约描述了如何计算 X。期权交易者正是使用这种模型来为其产品定价。)Xd=dX[R=[RXXX

您是否注意到这样的既不是随机变量也不是变量?它既不是“不确定的”也不是“未知的”。这是一个明确的分配(从数字到结果),我们可以在充分了解和完全确定的情况下写下这些东西。什么随机的绘画从盒子票的过程; 什么变量是对可能会被吸入的票值。X

还要注意,在评估投资时涉及两个不同问题的明确区分:我请经济学家为我确定,但不要对选举结果持怀疑态度。我将使用其他信息(也许通过拜访政治顾问,占星家,使用Ouija板或其他工具)来估计要放入框中的“ D”票和“ R”票的比例。X


事后:关于可测量性

当随机变量的定义伴随着“可衡量的” 警告时,定义者所想到的就是“盒中票”模型对具有无限多种可能结果的情况的概括。(从技术上说,它是只需要不可数其中无限成果或不合理的概率都参与其中,甚至在后一种情况下是可以避免的。)有了无穷多的结果就很难说了什么比例占总数的那样。如果有无限多的“ D”票和无限多的“ R”票,它们的相对比例是多少?我们无法仅将一个无穷大除以另一个无穷大!

在这种情况下,我们需要一种不同的方式来指定比例。“可测量的”票证集合是框中可以定义票证比例的任何票证集合。完成此操作后,我们一直认为是“比例”的数字称为“概率”。(并非每张票证都有与之相关的概率。)

除了满足一致性要求之外,随机变量还必须允许我们计算与有关结果的自然问题相关的概率。具体来说,我们要保证以下形式的问题:“值X ω 位于某某(a)和某某(b)之间的机会是多少?” 不管我们为极限ab给出两个值是多少,实际上都会有数学上明确定义的答案。据说这种重写程序是“可测量的”。根据定义,所有随机变量都必须是可测量的。XXω一种b一种b


7
对于那些以前不熟悉随机变量或即用即付票证模型的人,我网站上的快速互动教程:quantdec.com/envstats/notes/class_06/tutorial.htm提供了实践和一些其他概念。
whuber

2
可以在stats.stackexchange.com/a/68782上找到说明这些概念的示例
ub

2
注意:我怀疑很多人在包装盒中的含义上大致使用“人口”一词。我避免使用该术语,因为听起来太多了,我们只能创建用于对实际(物理)总体进行采样的概率模型。即使在抽样的人口中,也很少有人会与票证之间存在完美的一对一对应关系。例如,没有人能够枚举2014年1月1日活着的中国人,部分原因是人们在何时出生,何时死亡,甚至他们是否是中国人方面还不确定。
whuber

4
@jsk此答案的简介解释了为什么需要这样的照顾。尽管此线程中的其他两个答案确实包含正确且完整的定义(“从概率空间到可度量空间的可度量函数,称为状态空间”),但是该定义暗含了对sigma代数,概率测度,和可衡量的功能 读者会抱怨“那是研究生水平的东西”
ub

4
@ user4205580对于纯粹的数学定义,根本不需要“一致性”,因为对于数学家来说,随机变量只是“赋予”的。对于统计应用程序来说,这是一个重要条件,因为许多数据不是数值的:必须以适合模型和分析目标的方式构造随机变量。您可以自己决定这种概念上的区别是否对您有任何价值。
ub

16

非正式地,随机变量是一种为每个可能的结果分配数字代码的方法。*

例子1

{HŤ}

XXH=1个XŤ=01个0

例子2

{一种ķ2一种ķ2一种ķ2一种ķ2}

在桥牌中,一张ace值得4点高牌点,一张国王3点,一张女王2点,和一张千斤顶1点。其他任何一张卡值0点。

ÿÿ一种=4ÿĴ=1个ÿ7=0


HŤ一种

*通常,随机变量是将每个结果(在样本空间中)映射为实数的函数。


5
+1。这个答案很明确,正确,明确-从而避免了遍及该线程中其他答复的“未知”和“更改”值的废话。
ub

12

与常规变量不同,随机变量不能代替单个不变的值。相反,可以陈述统计属性,例如随机变量的分布。分布是一个函数,它提供变量采用给定值或在给定特定参数(例如平均值或标准偏差)的范围内的概率。

如果分布描述的是来自可数集(例如整数)的值,则随机变量可以分类为离散变量。随机变量的另一种分类是连续的,如果分布涵盖了不可数集合(例如实数)中的值,则使用该分类。


2
当您不表示正态分布的随机变量时,最好不要在这里使用术语“正态变量”。
罗伯·海德曼

同意 尽管我个人会看着一个有趣的人几秒钟,如果他们说“正常变量”并且没有在那个地方扔“随机”或“分布式”这个词来暗示我那是他们正在讨论的东西。但是我也是一名工程师,而不是统计学家,因此我不会使用太多针对特定领域的表示法。
Sharpie

7
如果随机变量不引起注意,则可以将其分类为谨慎变量。如果它们仅是可数的,我们说离散 :-P另外,您的意思是开处方而不是开处方,但我认为描述可能更合适。无论如何,这都是一个不错的答案-希望+1将有助于减轻挑剔!
walkytalky

@walkytalky感谢您的更正-我已进行了一些修复。
Sharpie 2010年

1
任何变量都是值的占位符。您可以将此值或该值分配给变量(有时,您可以分配的值集受称为type的集约束)。保持单个不变值的变量称为“常数”。您可能想说随机变量保持已知值,而随机变量的值未知吗?这与其他答案相反,其他答案说随机变量根本不是变量,它是一个(确定性地)将未知状态映射到其他函数的函数。他们说,它不是随机的,也不是变量。
2014年

6

有人告诉我这个故事:

可以将一个随机变量与神圣罗马帝国进行比较:神圣罗马帝国不是神圣的,它不是罗马的,并且不是帝国。

同样,随机变量既不是随机变量,也不是变量。它只是一个功能。(故事在这里被告知: 来源)。

这至少是一种轻松的解释方式,可能有助于人们记住!


3

来自维基百科

在数学(尤其是概率论和统计学)中,随机变量(或随机变量)(通常)是可测量的函数,它将概率空间映射到可测量的空间。在基本统计资料中经常研究将事件的所有可能结果映射为实数的随机变量,并在科学中将其用于根据从科学实验获得的数据进行预测。除了科学应用外,还开发了随机变量来分析机会和随机事件的博弈。随机变量的用途来自它们仅捕获回答概率问题所需的数学属性的能力。

来自cnx.org

随机变量是一个函数,它为固定条件下的随机实验的所有可能结果分配唯一的数值。随机变量不是变量,而是将事件映射到数字的函数。


4
cnx.org的定义都不正确:第一个是由于使用“独特”和“固定条件”含糊不清,甚至可能引起误解,第二个是因为它是错误的。RV是根据结果(样本空间的元素)而不是事件(可测量的结果集)定义的。
whuber

P=κλË-λŤκ=0PŤdŤËdŤ=λË-λŤËdŤ

1
FX

3

通常表示为X的随机变量是结果不确定的变量。对该变量的特定结果的观察称为实现。更具体地说,它是将概率空间映射到通常称为状态空间的可测量空间的函数。随机变量是离散的(可以采用多个不同的值)或连续的(可以采用无限数量的值)。

考虑随机变量X,它是掷骰子时获得的总和。它可以取2-12的任何值(给定公平骰子的概率相等),并且在掷骰子之前结果不确定。


5
只是一个想法,但这听起来像是您说掷出12(1/36)的概率与7(1/6)相同。
jefflovejapan 2011年

0

在我的非数学大学研究中,我们被告知随机变量是变量可以取值与概率的映射。这样可以绘制概率分布

http://mathbits.com/MathBits/TISection/Statistics2/normaldistribution.htm

最近,我意识到与数学家的想法有何不同。事实证明,通过随机变量,它们表示一个简单函数X:Ω→R,它采用样本空间Ω的一个元素(也就是结果,票据或个体,如上所述),并将其转换为范围内的实数R( -∞,∞)。即,上面已经适当地指出,它不是随机的,也根本没有变量。随机性通常与概率度量P一起出现,作为度量空间(Ω,P)的一部分。P将样本映射到R,类似于随机变量,但是此时间范围限制为[0,1],我们可以说随机变量将(Ω,P)转换为(R,P),因此,随机变量具有概率度量P:R-> [0,1],这样您就可以说R中的每个x发生的概率是多少。

我不知道您为什么需要这些随机变量,为什么不能首先对R的元素进行采样,但是似乎将采样转换为数值可以使我们对采样排序,绘制分布并计算期望值。我已经读过《度量理论教程》(傻瓜的度量理论),这个想法可能是数学家在脑海中更好地应用了随机变量,但是我在多余的研究中找不到它们。完全相同的文字表明您不必总是将样本转换为数字,尤其是要计算字母熵Ω

HΩ=PΩ一世ñΩ一世

积分不需要随机变量的任何实数值。


X一种σ一种
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.