通过对相关观测值进行自举计算置信区间


12

如果观测值是iid,则标准形式的引导程序可用于计算估计统计量的置信区间。I.Visser 等。在“ 隐藏的马尔可夫模型参数的置信区间 ”中,使用了参数引导程序来计算HMM参数的CI。但是,当我们在观察序列上拟合HMM时,我们已经假设观察是相关的(与混合模型相反)。

我有两个问题:

  1. iid假设与引导程序有什么关系?
  2. 我们可以忽略参数引导程序中的iid要求吗?

Visser 等。方法简述如下:

  1. 假设我们有一个观察序列是通过对HMM进行采样得到的,该HMM具有一组真实的但未知的参数。Y=o1,o2,...,onθ=θ1,θ2,...,θl
  2. 可以使用EM算法估算参数:θ^=θ^1,θ^2,...,θ^l
  3. 使用估计的HMM生成大小为的引导程序样本:nY=o1,o2,...,on
  4. 根据引导程序样本估计HMM的参数:θ^=θ^1,θ^2,...,θ^l
  5. 重复步骤3和4次(例如 = 1000),得出引导估计:θ *1 θ *2 θ *BBBθ^(1),θ^(2),...,θ^(B)
  6. 使用引导程序估计中的分布来计算每个估计参数的CI 。 θ * θ^iθ^i

笔记(我的发现):

  1. 为了具有正确的覆盖范围,应该使用百分位数方法来计算CI(正态性是一个错误的假设)。
  2. 自举分布的偏差应得到纠正。意味着的分布均值应移至θθ^iθ^i

换句话说,第一个问题:iid假设对引导程序有何影响?是否可以通过遵循更复杂的算法或公式将其简化来简化假设?
萨德格,2011年

Answers:


11

简要答案: 1.简化了。(坦率地说,我没有得到这个问题)。2.不,您永远不能忽略它,因为缺少iid会对您估计的任何方差产生直接影响。

中等答案:引导程序的主要中心问题是:“提议的过程是否可以重现数据的特征?” 。违反iid假设是一件大事:您的数据是依赖的,与最类似大小的iid样本中的数据相比,您的数据(最有可能)所包含的信息要少,并且如果您运行的是天真的引导程序(对个体进行重采样)观察),您从中得到的标准误差将太小。所提出的过程通过捕获(或至少试图捕获)模型结构和参数的依赖性来解决缺乏独立性的问题。如果成功,每个引导程序样本将根据需要重现数据的特征。

长答案:有关引导程序的假设有多个层次,即使在最简单的情况下(iid数据,均值的估计),也必须至少做出三个假设:(1)感兴趣的统计量是数据的平滑函数(在均值的情况下为真,即使在百分位数的情况下也不是这样,完全不匹配,例如最近邻居匹配估计量);(2)您所引导的分布与人口分布“接近”(对于iid数据而言,它可以正常工作;对于相关数据,您可能实际上无法正常工作,因为从属数据中您实际上只有一条轨迹=一条观测值时间序列的情况下,您必须调用平稳性和混合性等其他假设,以将单个观察结果增强为准种群);(3)您的蒙特卡洛自举抽样足够接近带有所有可能子样本的完整自举(使用蒙特卡洛与完整自举的不准确性远小于您要捕获的不确定性)。对于参数自举,您还可以假设(4)您的模型可以完美解释数据的所有特征。

为了警告(4)可能出什么问题,请考虑具有异方差错误的回归:,Var。如果您拟合OLS模型并像对iid一样对残差进行重新采样,则会得到错误的答案(某种,其中是平均而不是适当的[ ε ] = EXP [ X γ ] ˉ σ 2X ' X - 1 ˉ σ 2 1 / Ñ Σ EXP [ X γ ] X ' X - 1 Σ EXP [ X γ ] X X ' X 'y=xβ+ϵ[ϵ]=exp[xγ]σ¯2(XX)1σ¯21/niexp[xiγ](XX)1exp[xiγ]xixi(XX)1)。因此,如果您想拥有一个完全参数化的自举解决方案,则必须将模型用于异方差性以及均值模型。而且,如果您怀疑序列相关性或其他类型的相关性,则也必须为此拟合模型。(请参阅,引导程序的非参数无分布自由特性现在已基本消失,因为您已用模型的合成语音替换了数据语音。)

您所描述的方法通过创建一个全新的样本来围绕iid假设工作。依赖数据引导程序的最大问题是创建样本,该样本的依赖模式应与原始数据足够接近。对于时间序列,您可以使用块引导程序;使用集群数据,您可以引导整个集群;使用异方差回归,您必须使用狂野的引导程序(这是比残差的引导程序更好的主意,即使您已为其配备了异方差模型也是如此)。在块引导程序中,您必须做出有根据的猜测(或者说,有充分的理由相信)时间序列的遥远部分是近似独立的,以便所有相关结构都被相邻的5或10捕获。形成块的观测。因此,您不必逐个重采样观测值(它完全忽略了时间序列的相关结构),而是以块为单位对它们进行重采样,希望这会尊重相关结构。您提到的参数化引导程序是:“我不是摆弄数据,而是从旧玩具中组装新的洋娃娃,而是为什么不只为您模制整个模制的芭比娃娃呢?我想出了哪种的芭比娃娃,我保证我也会为您提供一个您想要的芭比娃娃。” 与其摆弄数据并从旧玩具中组装新娃娃,不如我不只是为您模制整个模制的芭比娃娃?我已经弄清了您喜欢哪种芭比娃娃,我保证我也会让您成为您想要的芭比娃娃。” 与其摆弄数据并从旧玩具中组装新娃娃,不如我不只是为您模制整个模制的芭比娃娃?我已经弄清了您喜欢哪种芭比娃娃,我保证我也会让您成为您想要的芭比娃娃。”

对于您描述的参数引导程序,必须非常确定您的HMM模型拟合非常完美,否则参数引导程序可能会导致错误的结果(无法移动双臂的芭比娃娃)。想一想上面的异方差递归示例;或考虑将AR(1)模型拟合为AR(5)数据:无论您对参数模拟数据进行什么操作,它们都不会具有原始数据曾经拥有的结构。

编辑:正如萨迪格(Sadeghd)澄清他的问题一样,我也可以回答。引导程序种类繁多,每个过程都针对统计,样本量,依存关系或引导程序可能存在的问题中的特定问题。例如,没有解决依赖关系的单一方法。(我使用过调查引导程序,虽然大约有8种不同的程序,尽管有些程序主要是方法论上的而不是实际的目的;有些明显地次于它们,因为它们仅适用于特殊的情况,而不是易于概括的情况。)有关您可能会遇到的有关引导程序的一般性讨论,请参见Canty,Davison,Hinkley和Ventura(2006年)。引导程序诊断和补救措施。《加拿大统计杂志》,34(1),5-27


只是在您的陈述中增加了有关在依赖的数据集群时信息较少的信息(在“ 中等”部分),我相信在集群内存在正的类内相关的情况下这是正确的,但是在负的情况下相反。类内相关。当然,在大多数实际数据应用中,类内相关似乎是正的。

@Macro:您肯定在两个方面都正确(这在技术上是可能的,并且实际上是无关紧要的)。如果您估计带有负相关的AR(1)进程的平均水平,也是如此,但是我再次茫然地想到可能具有此功能的实际进程。与在不同时间尺度上可自我复制的正自相关不同,如果将参考期的长度加倍,则负相关必须消失。(商业周期数据与美国GDP一样,在大约三年的滞后时间内也呈负相关。)
StasK,2011年

感谢您的详细回答。我得出的结论是,参数重采样可能会降低依赖性的影响。但是,参数分布在很大程度上必须代表真实的总体,并且在重新采样时将重新生成依赖关系模式。
萨德格,2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.