“独立观察”是什么意思?


28

我试图理解独立观察假设意味着什么。一些定义是:

  1. “只有当两个事件才是独立的。” (统计术语词典P(ab)=P(a)P(b)
  2. “一个事件的发生不会改变另一个事件的可能性”(维基百科)。
  3. “对一个观察值进行采样不会影响对第二个观察值的选择”(David M. Lane)。

经常出现的依赖观察的一个例子是学生嵌套在教师中,如下所示。假设教师影响学生,但学生彼此不影响。

那么,这些数据如何违反这些定义?[学生= 1]的采样[等级= 7]不会影响下一个要采样的等级的概率分布。(或者是?如果是,那么观察1对下一个观察有何预测?)

如果我不进行测量 gender 为什么观测结果是独立teacher_id它们不是以相同的方式影响观察结果吗?

teacher_id   student_id   grade
         1            1       7
         1            2       7
         1            3       6
         2            4       8
         2            5       8
         2            6       9

4
一个人可能会建议,与教师2相比,教师1的成绩分布具有较低的“均值”值,因此,教师1的学生平均都比教师2的学生具有较低的成绩。换句话说, ,两位老师的学生/年级分布很可能是不同的分布。这足以使观察结果具有依赖性。
恢复莫妮卡-G.辛普森2014年

1
@GavinSimpson:我一直在思考这种确切的推理方式。但是,如果我替换teachergender怎么办?性别存在于大多数社会科学数据中,并且在某种程度上与几乎任何事物相关。
RubenGeert 2014年

1
它必须一定取决于响应。如果我们查看的是英国理科专业的学生成绩,那么平均而言,在所研究的人群中,这两种性别的成就分布可能会有不同的影响。无论如何,所有这些仅对残差有意义(在统计模型中),或者对于以拟合模型为条件的响应而言是不同的。换句话说,如果观测值不是独立的,那可以,只要模型考虑到这一点,使得残差是独立的即可。
恢复莫妮卡-G.辛普森2014年

4
您不能将(1)或(2)用作(统计)独立性的定义,因为可以在不考虑因果关系的情况下定义独立性。所有这三个语录仅是为了提供非正式,直观的示例。((3)可能被当作一个定义,前提是您可以使用定量,严格的信息量定义。)因此,最好参考一个实际定义,例如在“定义”标题下出现的定义。在您引用的Wikipedia文章中。
ub

1
不可以,您可以使残差独立(或至少将依赖性降低到残差看起来独立的程度)。这来自线性模型的假设;其中是相关矩阵。通常的假设是是一个单位矩阵,因此非对角线为零,因此独立性的假设是残差。换句话说,这是关于拟合模型上的条件的陈述。Λ Λ ÿεN(0,σ2Λ)ΛΛy
恢复莫妮卡-G.辛普森2014年

Answers:


11

在概率论中,统计独立性(与因果独立性不同)定义为您的财产(3),但结果(1)随之而来。仅当且仅当满足以下条件时,才认为事件和在统计上是独立的:A BAB

P(AB)=P(A)P(B).

如果则遵循以下条件:P(B)>0

P(A|B)=P(AB)P(B)=P(A)P(B)P(B)=P(A).

这意味着统计独立性意味着一个事件的发生不会影响另一个事件的概率。换句话说,一个事件的发生不应改变您对另一个事件的信念。统计独立性的概念通常从事件扩展到随机变量,其方式允许对随机变量做出类似的陈述,包括连续随机变量(任何特定结果的可能性为零)。随机变量的独立性处理基本上涉及应用于分布函数的相同定义。


至关重要的是要理解独立性是非常强大的特性 -如果事件在统计上是独立的,那么(根据定义)我们将无法通过观察另一个来了解一个。因此,统计模型通常会考虑到条件独立性的假设,并给出一些基本的分布或参数。确切的概念框架取决于是使用贝叶斯方法还是经典方法。前者涉及可观察值之间的显式依赖,而后者则涉及(复杂而微妙的)隐式依赖。正确理解此问题需要对古典统计与贝叶斯统计有所了解。

统计模型通常会说他们使用的假设是,随机变量序列是“独立且相同分布的(IID)”。例如,您可能具有可观察的序列,这意味着每个可观察的随机变量正态分布为均值和标准差X μ σX1,X2,X3,...IID N(μ,σ2)Xiμσ。序列中的每个随机变量在其结果不会更改其他值的指定分布的意义上与其他变量“无关”。在这种模型中,我们使用序列的观测值来估计模型中的参数,然后可以依次预测序列的未观测值。这必然涉及使用一些观察值来了解其他值。

贝叶斯统计:一切在概念上都很简单。假定给定参数和,是有条件的IID ,并将那些未知参数视为随机变量。给定这些参数的任何非简并先验分布,可观察序列中的值(无条件)相关,通常具有正相关性。因此,我们使用观察到的结果来预测以后的未观察到的结果是完全合理的,它们是有条件独立的,但无条件依赖。μ σX1,X2,X3,...μσ

古典统计:这是相当复杂和微妙的。给定参数和,假设是IID ,但将这些参数视为“未知常量”。由于将参数视为常量,因此在这种情况下,条件独立和无条件独立之间没有明显的区别。但是,我们仍然使用观测值来估计参数并预测未观测值。因此,我们使用观察到的结果来预测后来的未观察到的结果,即使它们在概念上彼此“独立”。O'Neill,B.(2009)交换性,相关性和贝叶斯效应中详细讨论了这种明显的不一致μ σX1,X2,X3,...μσ国际统计评论 77(2),第241-250页


通过假设将其应用到您的学生成绩数据,你可能会模型这样的事情grade有条件独立 GIVEN teacher_id。您将使用数据推断每位教师的成绩分布(假设不会相同),这将使您能够预测grade另一名学生的未知数。由于grade变量是在推断中使用的,因此它将影响您grade对另一个学生的任何未知变量的预测。更换teacher_idgender不改变这一点; 无论哪种情况,您都有一个变量可以用作的预测变量grade

如果使用贝叶斯方法,您将对条件独立性有明确的假设,并且对教师的成绩分布具有先验分布,这会导致无条件(预测)地依赖成绩,从而使您可以合理地使用一个成绩来预测另一个成绩。如果您使用经典统计,则将假设独立性(基于“未知常数”的参数),并且您将使用经典统计预测方法,该方法允许您使用一个年级预测另一个年级。


概率论的一些基本表述通过条件概率陈述定义独立性,然后给出联合概率陈述。这不太常见。


6
统计独立性是您在回答的第一部分中所描述的。但是您的句子是“ ...如果事件在统计上是独立的,那么(根据定义)我们将无法通过观察另一个来获知。” 是公然的错误。这个世界充满了统计上独立但相似的事件和随机变量。
Alecos Papadopoulos '18年

1
“学习”是否意味着要基于对另一事物的观察来改变我们对事物的信念?如果是这样,独立性(明确地)是否可以排除这种情况?
恢复莫妮卡

6
我打算对@Alecos发表类似的评论。总体印象是您断言观察随机变量的一个实现不会告诉我们有关变量任何信息,因此您无法预测第二个独立实现的任何信息。如果是这种情况,则大多数采样和估计理论将无法发展。但是,从某种意义上来说,您是正确的,如果我们确实了解F并观察到一个实现,那么这将使我们没有任何其他独立实现的附加信息。FF
ub

4
我认为这里的问题是,在给定F情况下,具有分布的标准IID模型隐式使用条件独立的假设。以F的知识为条件,这些观察是独立的,但无条件的情况是每个观察都提供有关F的信息,这会影响您对其他观察的看法。FFFF
恢复莫妮卡

2
这个问题的困难在于经典统计将基本分布和参数视为“未知常数”,因此在这种情况下,没有对条件独立或无条件独立进行任何明确的区分。在贝叶斯统计中,这非常简单。
恢复莫妮卡

4

ķ -维随机向量,随机变量,即一个固定位置集合(可测量实际的函数)。x=(X1,...,Xj,...,Xk)k

考虑许多这样的载体,说和索引这些载体由= 1 n,所以说ni=1,...,n

并把它们作为一个所谓的“样品”,收集小号= X 1 X X ñ。然后,我们调用每个ķ-

xi=(X1i,...,Xji,...,Xki)
S=(x1,...,xi,...,xn)k 维向量是一种“观测”(尽管只有在我们测量并记录所涉及的随机变量的实现后,它才真正成为观测)。

首先,考虑存在概率质量函数(PMF)或概率密度函数(PDF)以及联合这些函数的情况。用关节PMF或每个随机向量的联合PDF,和 ˚F X 1XX Ñ所有这些矢量的关节PMF或联合PDF在一起。 fi(xi),i=1,...,nf(x1,...,xi,...,xn)

然后,如果以下数学等式成立,则样本被称为“独立样本”:S

f(x1,...,xi,...,xn)=i=1nfi(xi),(x1,...,xi,...,xn)DS

其中 是由n个随机向量/观测值创建的联合域。DSn

这意味着“观察”是“共同独立的”(在统计学意义上,或“在概率上独立”,就像今天仍然有时听到的那句老话)。习惯是简单地称它们为“独立观察”。

请注意,此处的统计独立性属性超出索引,即在观察之间。它与每个观察值中的随机变量之间的概率/统计关系是什么无关(在一般情况下,我们在这里对待每个观察值都是多维的)。i

还要注意,在我们有无密度的连续随机变量的情况下,上述值可以用分布函数表示。

这就是“独立观察”的意思。它是用数学术语表达的精确定义的属性。让我们看看它的含义

独立观测的一些后果

答:如果两个观测值是一组共同独立观测值的一部分,那么它们也是“成对独立的”(统计上),

f(xi,xm)=fi(xi)fm(xm)im,i,m=1,...,n

这反过来意味着有条件的PMF / PDF等于“边际”的

f(xixm)=fi(xi)im,i,m=1,...,n

例如,这可以归结为许多有条件或有条件的论点

f(xi,xxm)=f(xi,x),f(xixm,x)=fi(xi)

等等,只要左侧的索引与垂直线右侧的索引不同即可。

这意味着如果我们实际上观察到一个观察值,则表征该样品的任何其他观察值的概率不会改变。因此,关于预测,独立样本不是我们最好的朋友。我们希望有依赖性,以便每个观察都可以帮助我们说出更多关于其他观察的信息。

B.另一方面,独立样本具有最大的信息含量。每个观察值都是独立的,其信息不能完全或部分地由样本中的任何其他观察值推断。因此,与任何在某些观察值之间存在一定统计依赖性的可比较样本相比,总和最大。但是,如果这些信息不能帮助我们改善我们的预测,那么它有什么用呢?

好吧,这是关于表征样本中随机变量的概率的间接信息。如果我们的样本是独立的,则这些观察结果具有共同特征的次数越多(在我们的案例中是常见的概率分布),我们就越有能力发现它们。

换句话说,如果样本是独立的 “分布相同”,则表示

fi(xi)=fm(xm)=f(x),im

为了获得不仅关于共同的联合概率分布,而且关于构成每个观测值的随机变量的边际分布的信息,例如f jx j i,这是最好的样本。 f(x)fj(xji)

因此,即使,对于x i的实际实现,对于零的附加预测能力,使用独立且分布均匀的样本,我们仍将处于最佳状态函数f i(或其某些属性),即边际分布。f(xixm)=fi(xi)xi fi

因此,至于估计(有时作为一个包罗万象的术语,但在这里它应保持的概念截然不同的预测),一个独立的样本我们的“最好的朋友”,如果它与“同分布相结合”属性。

C.由此得出结论,一个独立的观察样本(每个样本的特征是完全不同的概率分布,没有任何共同特征)是一个人所能获得的毫无价值的信息集合(当然,每条信息本身都是值得一提的是,这些问题加在一起无法提供任何有用的信息)。想象一个样本,其中包含三个观测值:一个包含南美的水果(具有定量特征),另一个包含欧洲的山脉,第三个包含亚洲的衣服。这三个部分都很有趣,但作为一个样本,对我们而言在统计学上没有任何用处。

换句话说,独立样本有用的必要和充分条件是观测值具有一些共同的统计特征。这就是为什么在统计中,“样本”一词通常不与“信息收集”同义,而是“与具有某些共同特征的实体有关的信息收集”。

在OP的数据示例中的应用

响应用户@gung的请求,让我们根据上述内容检查OP的示例。我们可以合理地假设我们所在的学校有两名以上的老师和六名以上的学生。因此,a)我们同时对学生和教师进行抽样,b)我们在数据集中包括与每种师生组合相对应的成绩。

即,成绩不是 “抽样”的,而是我们对教师和学生进行抽样的结果。因此,将随机变量(=年级)视为“因变量” 是合理的,而学生(P)和教师T是“解释性变量”(并非所有可能的解释变量,仅一部分)。我们的样本包括六个观察,我们明确地写出,小号= 小号 1s ^ 6作为GPTS=(s1,...,s6)

s1=(T1,P1,G1)s2=(T1,P2,G2)s3=(T1,P3,G3)s3=(T2,P4,G4)s4=(T2,P5,G5)s5=(T2,P6,G6)

PiGi
T1,T2

s1,s2,s3T1s4,s5,s6T2

请仔细注意“相同的随机变量”和“具有相同分布的两个不同的随机变量”之间的区别。

s1,s2,s3T1s4,s5,s6T2

现在假设我们从样本中排除了随机变量“老师”。是六个观测值的(样本,等级)样本,是独立样本吗? 在这里,我们将对教师,学生和年级之间的结构关系的假设很重要。

T1T2G1,G2,G3T1

但是要说老师在这方面是相同的。然后,在上述假设“教师影响学生”的情况下,我们又得到前三个观察结果是相互依赖的,因为教师影响了影响成绩的学生,我们得出了相同的结果,尽管在这种情况下是间接的(对于这种情况同样如此)其他三个)。同样,样本不是独立的。

性别案例

GeM,F

s1=(Ge1,P1,G1)s2=(Ge2,P2,G2)s3=(Ge3,P3,G3)s3=(Ge4,P4,G4)s4=(Ge5,P5,G5)s5=(Ge6,P6,G6)

请注意,关于性别的样本描述中包含的并不是每个学生的实际值,而是随机变量“性别”。回头看一下这个很长答案的开始:样本不是定义为数字的集合(或者通常是固定的数值或非值的集合),而是随机变量(即函数)的集合。

Gei1Ge1P2,P3,...,然后便是观察之间相互依赖的另一个可能来源。最后,一个学生的性别会直接影响另一个学生的成绩吗?如果我们认为不这样做,我们将获得一个独立的样本(以所有具有同一位老师的学生为条件)。


我不同意你的观点B。出于某些目的,例如估计均值,负相关性比独立性要好。
kjetil b halvorsen

@kjetil在什么意义上更好?
Alecos Papadopoulos

如果您可以将其与文本中OP的问题具体联系起来,将会有所帮助。鉴于此,我们如何理解列出的观察结果不是独立的?&排除老师与排除性别有何不同?
gung-恢复莫妮卡

@gung我按照您的建议做了一些阐述。
Alecos Papadopoulos

从减少方差的角度来看更好
kjetil b halvorsen

2

统计独立性的您在您的文章给的定义本质上都是正确的,但他们没有得到独立的心脏假设一个统计模型。要了解统计模型中独立观察的假设是什么意思,重新审视概念概念上的统计模型将很有帮助。

统计模型作为“自然骰子”的近似值

我们以一个熟悉的示例为例:我们从一个明确的人群中(例如,地球上所有成年人)随机收集一个成年人的样本,然后测量他们的身高。我们希望估计成年人的人口平均身高。为此,我们通过假设人们的身高来自正态分布来构造一个简单的统计模型。

如果正态分布可以很好地近似自然如何“挑高”人类,那么我们的模型将是一个很好的模型。也就是说,如果我们在正常模型下模拟数据,那么所得的数据集是否与我们在自然界中观察到的数据(从统计意义上)非常相似?在我们的模型中,我们的随机数生成器是否可以很好地模拟大自然用来确定随机选择的人类成年人(“自然骰子”)的高度的复杂随机过程?

简单建模环境中的独立性假设

当我们假设可以通过从正态分布中提取随机数来近似“自然的骰子”时,我们并不是说我们将从正态分布中提取一个数,然后将该高度分配给每个人。我们的意思是,我们将从相同的正态分布中独立地为每个人得出数字。这是我们的独立性假设。

现在想象一下,我们的成年人样本不是随机样本,而是来自少数家庭。高矮在某些家庭中发生,而矮矮人在其他家庭中发生。我们已经说过,我们愿意假设所有成年人的身高都来自一个正态分布。但是从正态分布中采样不会提供看起来像我们样本的数据集(我们的样本将显示点的“团块”,有些短而又有些高-每个团块都是一个家庭)。人在我们的样本中的高度不独立从整体正态分布平局。

在更复杂的建模环境中的独立性假设

但并非所有都消失了!我们也许能够为我们的样本写下一个更好的模型-一个可以保持高度独立性的模型。例如,我们可以写下一个线性模型,其中高度来自正态分布,其平均值取决于对象所属的家庭。在这种情况下,在考虑家庭影响之后,正态分布描述了残差变化。并且来自正态分布的独立样本可能是此残差变化的良好模型。

总的来说,我们要做的是写下一个更复杂的模型,说明我们期望自然骰子在研究背景下的行为。通过写下一个好的模型,我们可能仍然有理由假设该模型的随机部分(即家庭均数周围的随机变化)是针对人口的每个成员独立采样的。

一般建模环境中的(条件)独立性假设

通常,统计模型通过假设数据来自某种概率分布来工作。该分布的参数(如上述示例中正态分布的平均值)可能取决于协变量(如上述示例中的family)。但是,当然可以有无穷无尽的变化。分布可能不正常,依赖于协变量的参数可能不是平均值,依赖关系的形式可能不是线性的,等等。所有这些模型都依赖于这样的假设,即它们为自然骰子提供了合理的近似值行为(再次,在模型下模拟的数据在统计上看起来与自然获得的实际数据相似)。

当我们在模型下模拟数据时,最后一步将始终是根据某些建模的概率分布绘制随机数。这些是我们认为彼此独立的平局。我们获得的实际数据可能看起来并不独立,因为模型的协变量或其他特征可能会告诉我们对不同的平局(或一组平局)使用不同的概率分布。但是,所有这些信息必须内置到模型本身中。我们不允许让随机最终数字取决于我们为其他数据点绘制的值。因此,在我们的模型中,需要独立的事件是“自然的骰子”。

将这种情况称为条件独立性很有用,这意味着给定(即以协变量为条件)数据点彼此独立。在我们的身高示例中,我们假设我的身高和哥哥的身高以我的家庭条件,并且也独立于您的身高和姐姐的身高以您的家庭为条件。一旦我们知道某人的家庭,我们就知道要从中提取什么正态分布来模拟他们的身高,并且针对不同个体的绘制是独立的,与他们的家庭无关(即使我们选择从中提取什么正态分布取决于家庭)。即使在处理了数据的家庭结构之后,我们仍然可能无法达到良好的条件独立性(例如,对性别进行建模也很重要)。

归根结底,假设条件独立的观测是否有意义是必须在特定模型的背景下进行的决定。例如,这就是为什么在线性回归中,我们不检查数据是否来自正态分布,而是检查RESIDUALS来自正态分布(以及整个范围内的SAME正态分布)。数据)。线性回归假设,在考虑了协变量的影响(回归线)之后,根据原始职位中严格的独立性定义,从正态分布中独立采样数据。

在你的例子中

数据中的“老师”可能与身高示例中的“家庭”相似。

最后旋转

许多熟悉的模型都假设残差来自正态分布。想象一下,我给您提供了一些非常不正常的数据。也许是严重偏斜的,或者它们是双峰的。我告诉您“这些数据来自正态分布”。

您说:“显然,那是不正常的!”

“谁说数据正常?” 我说。“我只是说它们来自正态分布。”

“同一个!” 你说。“我们知道,正态分布的相当大样本的直方图将看起来近似于正态!”

“但是,”我说,“我从未说过数据是从正态分布中独立采样的。DO来自正态分布,但不是独立绘制。”

统计建模中(条件)独立性的假设是为了防止像我这样的聪明人忽略了残差的分布并错误地应用了模型。

最后两点

1)“自然的骰子”一词最初不是我的,但是尽管参考了一些参考资料,但在这种情况下我仍无法弄清楚我从何而来。

2)某些统计模型(例如自回归模型)并不需要完全独立地观察。特别是,它们使给定观察值的采样分布不仅取决于固定的协变量,而且还取决于它之前的数据。


谢谢你 我喜欢它以一种易于访问的方式放置。您解决了教师如何发挥作用的问题,是否可以扩大讨论范围,也解决性别作为协变量的想法?
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.