不确定性的几种测量的标准偏差


13

我有两个2个小时的GPS数据,采样率为1 Hz(7200次测量)。中的数据形式给出,其中Ñ σ是测量不确定性。(X,Xσ,Y,Yσ,Z,Zσ)Nσ

当我取所有测量值的平均值(例如,这两个小时的平均Z值)时,其标准偏差是多少?我当然可以从Z值计算出标准偏差,但是后来我忽略了已知的测量不确定性这一事实...

编辑:数据全部来自同一测站,并且每秒重新测量所有坐标。由于卫星星座等原因,每次测量都具有不同的不确定性。我的分析目的是找出由于外部事件(例如地震)引起的位移。我想取地震前7200次测量的平均值(2h),取地震后2h的另一个平均值,然后计算所得的差值(例如,高度)。为了指定此差异的标准偏差,我需要知道两种方法的标准偏差。


3
好问题。甚至更重要的是,数据将随着时间而强烈地正相关:与测量不确定性的变化相比,这将对答案产生更深远的影响。
whuber

拿起Whuber的评论和Deathkill14的答案,您没有给我们足够的信息来正确回答。重要的是要知道测量的误差是如何工作的。例如,如果测量X的误差在3秒处为正,那么它在4秒处更有可能为正-即是否存在序列相关性?其次,如果X的误差在3秒处为正,那么Y和/或Z的误差在3秒处为正的可能性大/小?2秒?4秒?X,Y,ZXXYZ
条例草案

一个稍有不同的问题是相关的:测量误差有多系统?假设我说:“是啊,测量在我前面的草坪有点高。 X几乎总是衡量我前面的草坪有点高。” 那会是个疯狂的说法吗?测量误差是否以某个特定位置可能经常太高而另一个特定位置可能经常太低等等的方式工作?”还是所有误差都是暂时的?XX
法案

@Bill:肯定有序列相关。在两个小时内,测量误差几乎恒定。但是,它们通常大于根据数据计算得出的标准偏差,这使我想到了这个问题。
火车司机2014年

您的问题仍然没有清楚说明序列相关性的存在。不幸的是,您有三个精心构造的答案,对您的帮助可能不如以前有用。
Glen_b-恢复莫妮卡2014年

Answers:


7

我怀疑以前对这个问题的回答可能不合时宜。在我看来,什么楼主其实是在问这里可以表述为,“鉴于一系列矢量测量的:= 1 2 3 7200,和测量协方差ç = X 2 σ 0 0 0 ÿ

θi=(XiYiZi)
i=1,2,3,...,7200我将如何正确地计算协方差,加权平均为这一系列矢量测量的,后来,我将如何正确地计算出其标准偏差吗?”这个问题的答案可以是在许多专门研究物理统计的教科书中都可以找到,我特别喜欢的一个例子是弗雷德里克·詹姆斯(Frederick James),“实验物理中的统计方法”
Ci=(Xσ,i2000Yσ,i2000Zσ,i2)
,第二版,《世界科学》,2006年,第11.5.2节“合并独立的估计”,第13页。323-324。Philip R. Bevington和D. Keith Robinson,《数据精简和误差分析》,是另一个很好的介绍性文本,它描述了标量值的方差加权平均计算(与上面介绍的全矢量数量相反)。对于物理科学”,第3版,麦格劳-希尔,2003年,第4.1.x的,‘加权数据-不确定性不均匀’。因为发帖人的问题碰巧有一个对角线在这种情况下的协方差矩阵(即所有非对角元素均为零),该问题实际上可分为三个单独的(即X,Y,Z)标量加权均值问题,因此Bevington和Robinson分析同样适用这里也。

N=7200

θmean=(i=1NCi1)1(i=1NCi1θi)
Cmean=(i=1NCi1)1
Ci

XiYiZi

Xmean=i=1NXiXσ,i2i=1N1Xσ,i2
Xσ,mean2=1i=1N1Xσ,i2
Xσ,mean=1i=1N1Xσ,i2
Ymean,Yσ,meanZmean,Zσ,mean

也许我不太清楚,所以我添加了更多信息。我认为不需要加权自己的测量值。
火车司机2014年

1
是的你是。考虑一个极端情况,就像一个思想实验:假设您只有2个GPS测量值,而不是7200。此外,假设其中一个GPS测量值的不确定度为+/- 5英尺,而另一个GPS测量值的不确定度为+ / - 5英里。不确定度数字从字面上告诉您测量的潜在潜在误差。这意味着+/- 5英里的值可能至少相距几英里。您是否真的要以任何有意义的方式将此数字包括在平均值中?加权平均允许您折价不应被信任的值。
stachyra

1
顺便说一句,我的回答还有另外一回事:在您的原始帖子中,您提到您不想简单地使用直接从Z值计算的样本标准偏差的原因是,在这种情况下,用您自己的话说,“忽略存在已知测量不确定性的事实”。我的答案(实际上,是晦涩的教科书答案,我只是与您分享)使用了您所要求的已知测量不确定性。只是它在比您期望的更多的地方使用了信息(平均结果和标准差)。
stachyra 2014年

你说服了我
火车司机

6

这应该使用贝叶斯推理轻松解决。您知道各个点相对于其真实值的测量属性,并且想要推断生成真实值的总体平均值和SD。这是一个层次模型。

改写问题(贝叶斯基础知识)

请注意,尽管正统统计量为您提供了一个均值,但在贝叶斯框架中,您可以得到可靠的均值分布。例如,具有SD值(2、2、3)的观测值(1、2、3)可能是通过最大似然估计值为2生成的,但也可能是平均2.1或1.8生成的,尽管(从数据来看)可能性要小一些MLE。因此,除了SD之外,我们还可以推断均值

另一个概念上的差异是,您必须在进行观察之前定义知识状态。我们称此为先验。您可能事先知道在一定高度范围内扫描了某个区域。完全不了解知识的地方将是在X和Y方向上具有先验的(-90,90)度,并且可能在高度上(在海洋之上,在地球的最高点以下)高度为(0,10000)米。您必须为要估计的所有参数定义先验分布,即获取其后验分布。标准偏差也是如此。

因此,改写您的问题,我假设您要推断三个均值(X.mean,Y.mean,X.mean)和三个标准差(X.sd,Y.sd,X.sd)的可信值生成了您的数据。

该模型

使用标准的BUGS语法(使用WinBUGS,OpenBUGS,JAGS,stan或其他程序包运行此语法),模型将如下所示:

  model {
    # Set priors on population parameters
    X.mean ~ dunif(-90, 90)
    Y.mean ~ dunif(-90, 90)
    Z.mean ~ dunif(0, 10000)
    X.sd ~ dunif(0, 10)  # use something with better properties, i.e. Jeffreys prior.
    Y.sd ~ dunif(0, 10)
    Z.sd ~ dunif(0, 100)

    # Loop through data (or: set up plates)
    # assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
    for(i in 1:n.obs) {
      # The true value was generated from population parameters
      X[i] ~ dnorm(X.mean, X.sd^-2)  #^-2 converts from SD to precision
      Y[i] ~ dnorm(Y.mean, Y.sd^-2)
      Z[i] ~ dnorm(Z.mean, Z.sd^-2)

      # The observation was generated from the true value and a known measurement error
      d[i, 1] ~ dnorm(X[i], d[i, 2]^-2)  #^-2 converts from SD to precision
      d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
      d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
    }
  }

自然地,您监视.mean和.sd参数,并使用它们的后验进行推断。

模拟

我模拟了一些数据,如下所示:

# Simulate 500 data points
x = rnorm(500, -10, 5)  # mean -10, sd 5
y = rnorm(500, 20, 5)  # mean 20, sd 4
z = rnorm(500, 2000, 10)  # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3)  # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]

然后在500次迭代的老化之后,使用JAGS对2000次迭代运行模型。这是X.sd的结果。

X.sd后

蓝色范围表示最高后验密度或可信区间为95%(您认为该参数是在观察数据后得出的。请注意,正统的置信区间不会为您提供此值)。

红色垂直线是原始数据的MLE估计值。通常,贝叶斯估计中最可能的参数也是正统统计量中最可能的(最大似然)参数。但是,您不必太在意后部的顶部。如果要将平均值简化为一个数字,则平均值或中位数更好。

请注意,MLE /顶部不是5,因为数据是随机生成的,而不是因为统计信息错误。

局限性

这是一个简单的模型,目前存在一些缺陷。

  1. 它不能处理-90度和90度的标识。但是,这可以通过做一些中间变量来完成,该变量将估计参数的极值移到(-90,90)范围内。
  2. 尽管X,Y和Z可能相互关联,但目前已将它们建模为独立的,因此应将其考虑在内,以充分利用数据。这取决于测量设备是在移动(X,Y和Z的序列相关性和联合分布将为您提供很多信息)还是静止不动(独立无妨)。如果需要,我可以扩展答案以解决此问题。

我应该提到,关于空间贝叶斯模型的文献很多,我对此并不了解。


感谢您的回答。它是来自固定站的数据,但这是否意味着数据是独立的?
火车司机

@traindriver您需要提供有关您面临的推理问题的更多信息,以便我们为您提供帮助。您可以使用“更新”部分来扩展您的问题,该部分至少指定(1)是否与重复测量的数量相同?即相同的坐标。还是扫描区域或...(2)为什么要推断均值和标准差?如果这是一个区域,则可能是您想使用SD来估计颠簸或类似情况。
JonasLindeløv2014年

我在原始帖子中添加了更多信息。
火车司机2014年

3

z

Z¯=i=1nμZ+ϵinZ¯zμZϵZ¯μZZZ¯σ^σ

z=1β+ϵ1βZ¯μZϵz

z=1β+Qu+ϵuQzuuZσz?如果是,则可用于提供随机效果的分布。通常,执行基本混合效果建模的软件将假定随机效果具有正态分布(均值0 ...),并为您估计方差。也许您可以尝试此方法以测试该概念。如果您希望使用有关测量误差分布的先验信息,请使用贝叶斯混合效应模型。您可以使用R2OpenBUGS。

ϵϵ

DW

如whuber所述,您可能希望考虑数据中的自相关。使用随机效果无法解决该问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.