“随机样本”和“ iid随机变量”是同义词吗?


18

我一直很难理解“随机样本”和“ iid随机变量”的含义。我试图从几个方面找出含义,但是却越来越困惑。我将在此发布的内容尝试并了解:

Degroot的概率与统计说:

随机样本/ iid /样本大小:考虑真实行上的给定概率分布,该概率分布可以用pf或pdf。据说有随机变量如果这些随机变量是独立的,并且每个变量的边际pf或pdf为从该分布形成一个随机样本。这种随机变量也被认为是独立且均等分布的,简称iid。我们将随机变量的数量n称为样本量。FñX1个XñF

但是我写过的另一本统计书说:

在随机抽样中,我们保证总体中的每个个体单元都有相等的被选择的机会(概率)。

因此,我觉得iid是构成随机样本的元素,而拥有随机样本的过程就是随机抽样。我对吗?

PS:我对这个话题非常困惑,因此,我感谢您详尽的答复。谢谢。


6
独立性,因为我们可以在其所有的变量分布相同(有相同的边缘分布),但样品的部分是非常重要的独立。这样的样本仍可以视为随机样本,但不能视为您认为是随机样本的实验。看到这个问题
Dilip Sarwate 2014年

这个问题似乎没有统计学意义。同义和随机样本显然是有识之士确立的截然不同的概念。
Subhash C. Davar

2
@ subhashc.davar是吗?根据一个定义:“随机样本是一系列独立的,相同分布的(IID)随机变量”。因此,似乎iid和随机样本是同一回事?Degroot的概率与统计中引用的段落基本上是相同的。我感到困惑,因为“样本”有时是一个人或一组人,有时是随机变量序列。
Gary Chang

@Gary Chang您引用的定义与pdf有关。随机变量的样本在心理测量学领域很流行。通常,它用于可靠性或有效性估计以及用于因素分析。心理测验对建立域的测试等价感兴趣。iid概念似乎起源于线性代数。根据研究目的,样本可以来自给定的个体群体和/或(随机)变量群体。今天的统计数据似乎是从测量理论中借来的。
Subhash C. Davar 2014年

Answers:


9

您没有说其他统计书是什么,但我想这是一本关于有限总体抽样的书(或本节)。

当您对随机变量进行采样时,即当考虑n随机变量的集合 时,您知道如果它们是独立的,则f x 1x n= f x 1f x n且分布相同,特别是E X i= μVar X iX1个XññFX1个Xñ=FX1个FXñËX一世=μ对所有,则: ¯ X = Σ X VarX一世=σ2一世 其中σ2是第二中心矩。

X¯=一世X一世ñËX¯=μVarX¯=σ2ñ
σ2

对有限的总体进行采样有些不同。如果总体大小为,则在不进行替换的抽样中有 Nñ大小为n的可能样本si,它们是等概率的: psi=1(Nn)sin 例如,如果Ñ=5Ñ=3,样品空间是{小号1...š10} 和不可能性样品是: 小号1 ={123} š 2 ={124} š 3 ={125} š 4

p(si)=1(Nn)i=1,,(Nn)
N=5n=3{s1,,s10} 如果算上每个单独的出现次数的数量,可以看到,他们是6,即,每个个体具有被选择的同等chanche(6/10)。因此,根据第二个定义,每个si是一个随机样本。大致来说,这不是iid随机样本,因为个体不是随机变量:您可以通过样本均值来一致地估计E[X],但永远不会知道其确切值,但是如果n=N,可以知道确切的总体均值(让我再说一遍:大概。)
s1={1,2,3},s2={1,2,4},s3={1,2,5},s4={1,3,4},s5={1,3,5},s6={1,4,5},s7={2,3,4},s8={2,3,5},s9={2,4,5},s10={3,4,5}
siE[X]n=N1

μn<Nμ

y¯s=i=1nyi,E(y¯s)=μ
Var(y¯s)=σ~2n(1nN)
σ~2i=1N(yiy¯)2N1(1n/N)

这是一个简单的例子,说明(随机变量)id随机样本和(有限总体)随机样本可能如何不同。统计推断主要是关于随机变量抽样,抽样理论是关于有限总体抽样。


1并解释一组灯泡作为(随机变量)样本。现在说,您发现有一个装有1000个灯泡的盒子,希望知道它们的平均寿命。您可以选择一小组灯泡(一个有限的样本),但是您可以全部选择。如果选择较小的样本,则不会将灯泡转换为随机变量:随机变量由您生成,因为“全部”和“少量样本”之间的选择取决于您。但是,当有限的人口非常大时(例如您所在的国家/地区的人口),当选择“全部”不可行时,第二种情况最好作为第一种解决。


1
您的意思是“个人不是随机变量?” Whuber 在这里这里都有一些非常好的答案,它们使用有限总体抽样来解释随机变量的概念。
jsk

我的意思是我说的:如果 ñ=ñ那么就没有不确定性。
塞尔吉奥

这无助于澄清您的声明与链接中的声明直接矛盾。拜托,没有必要防御。关于点ñ=ñ与我很好奇的陈述无关。此外,退化的随机变量不是随机变量吗?
jsk 2014年

防守?您不了解这些链接。正如Whubner所说:a)盒装票模式只是一个玩具示例,可以避免抱怨“这是研究生级别的东西”;b)他避免将盒子中的票称为“人群”,并解释原因。所以没有矛盾。如果有人能理解whubner所说的话。顺便说一句,我不是一个随机变量,是吗?
塞尔吉奥

恕我直言,当然。
塞尔吉奥

2

我不会给您带来概率的定义和公式,您可以在任何教科书中轻松找到(或从这里开始)

只需直观地考虑一下,随机样本就是一组随机值。通常,每个值可以相同或不同地分布。一世一世d样本是随机样本的一种特殊情况,因此每个值都与其他值来自相同的分布,并且其值对其他值没有任何影响。独立处理HØw 值已生成

一世一世d例如:从卡组中抽出一张随机纸牌,然后将其退回(重复5次)。您将获得5个实现的值(卡)。这些值中的每个值均来自一个均匀分布(获得每个结果的可能性均等),并且每个平局都独立于其他结果(即,您在第一局中获得黑桃王牌的事实并不影响无论如何,您可能会在其他平局中得到结果)。

一世一世d例子:现在做同样的事情,但是不把卡片放回卡组(我希望你现在就补上差额)。再次执行此操作后,您将获得5个已实现的值(卡)。但显然它们是相互依赖的(事实上,您在第一张平局中就赢得了黑桃A,这意味着您将没有机会进入第二张平局)。


1

通常写为X的随机变量是一个变量,其可能值为随机现象的数值结果。随机现象可能会产生具有由随机变量捕获的数值的结果-例如,投掷10枚硬币的头数或样本中的收入/身高等-但这不是必需的。
一般而言,随机变量是将随机结果映射到数值的函数。例如,每天可能是晴天,阴天或雨天。我们可以定义一个随机变量,如果下雨,则取值为1,如果多云则取值为2,如果晴天则取值为3。随机变量的域是可能结果的集合。
要建立随机变量,必须有一个过程或实验与可能无法确定地预测的结果相关联。

现在谈到独立性问题。如果两个随机变量之一的值不影响另一个随机变量的PDF,则它们是独立的。当我们对另一个变量有所了解时,我们不会修改对一个变量不同值的概率的预测。因此,在独立性的情况下,后PDF与先前PDF相同。例如,当我们反复抛掷无偏硬币时,我们所获得的有关5次抛掷结果的信息不会影响我们对当前抛掷的预测,它将始终为0.5。但是,如果硬币的偏倚是未知的并且被建模为随机变量,那么前5次抛掷的结果会影响我们对当前抛掷的预测,因为它可以让我们对硬币的未知偏斜做出推断。

现在谈到采样问题。抽样的目的是告知我们未知的必须推断的基础分布的属性。请记住,分布是指样本空间(也可能是条件宇宙)中可能结果的相对可能性。因此,当我们采样时,我们从采样空间中选择了有限数量的结果,并且我们以更易于管理的规模再现了采样空间。然后,均等概率指的是抽样过程,而不是指样本中结果的概率。等概率抽样意味着样本将反映原始样本空间中结果的比例。例如,如果我们问10,000人(如果曾经被捕过),我们最终得到的样本可能不会代表人口(样本空间),因为本来会被捕的人可能拒绝回答,因此可能结果的比例由于系统的原因,样本与总体之间(被捕-未被捕)会有所不同。或者,如果我们选择特定的社区进行调查,则结果将无法代表整个纽约市。因此,均等概率采样意味着除纯随机性之外没有其他系统原因,这使我们相信样本中可能结果的比例与总体/样本空间中结果的比例不同。因此,出于系统性原因,我们的样本与总体之间可能的结果比例(被捕-未被捕)会有所不同。或者,如果我们选择特定的社区进行调查,则结果将无法代表整个纽约市。因此,均等概率采样意味着除纯随机性之外没有其他系统原因,这使我们相信样本中可能结果的比例与总体/样本空间中结果的比例不同。因此,出于系统性原因,我们的样本与总体之间可能的结果比例(被捕-未被捕)会有所不同。或者,如果我们选择特定的社区进行调查,则结果将无法代表整个纽约市。因此,均等概率采样意味着除纯随机性之外没有其他系统原因,这使我们相信样本中可能结果的比例与总体/样本空间中结果的比例不同。


-2

随机样本是一系列随机变量的实现。这些随机变量可以是或不是。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.