Questions tagged «bootstrap»

引导程序是一种重采样方法,用于估计统计信息的采样分布。

1
使用自举获得1%的抽样分布
我有一个人口样本(大小为250)。我不知道人口的分布。 主要问题:我想要对人口的第一个百分点进行点估计,然后我希望在我的点估计周围有95%的置信区间。 我的估计值将是样本1st- percentile。我将其表示为。XXx 之后,我尝试围绕点估计值建立置信区间。我不知道在这里使用引导是否有意义。我对Bootstrap缺乏经验,所以请谅解如果我没有使用适当的术语等。 这是我尝试的方法。我从原始样本中抽取了1000个随机样本进行替换。我得到1 日从他们每个人的百分位。因此,我有1000点- “1 日 -percentiles”。我看一下这1000点的经验分布。我表示它的平均值。我将“偏差”表示为:。我走2.5 个百分位和97.5 个百分点的1000点,以获得较低和较高端我所说周围1 95%的置信区间ST百分位原始样品。我表示这些点和。X米Ë 一个ÑX米Ë一个ñx_{mean}偏差=X米Ë 一个Ñ- x偏压=X米Ë一个ñ-X\text{bias}=x_{mean}-xX0.025X0.025x_{0.025}X0.975X0.975x_{0.975} 最后剩下的步骤是适应这个置信区间是围绕1 日百分位的的人口,而不是周围的1 日百分位的的原始样本。因此,我将作为下端,将作为上端人口的第一个百分位数的点估计值附近的95%置信区间的概率。这是我一直在寻找的时间间隔。X - 偏见- (X米Ë 一个Ñ-X0.025)X-偏压-(X米Ë一个ñ-X0.025)x-\text{bias}-(x_{mean}-x_{0.025})X - 偏压+ (X0.975-X米Ë 一个Ñ)X-偏压+(X0.975-X米Ë一个ñ)x-\text{bias}+(x_{0.975}-x_{mean}) 一个关键点,在我看来,是它是否有意义的使用引导1 日百分值是相当接近人口的未知潜在分布的尾部。我怀疑这可能有问题;考虑使用引导程序在最小(或最大)附近建立置信区间。 但是,也许这种方法有缺陷吗?请告诉我。 编辑: 转念一想这个问题有点多,我看到我的解决方案意味着:经验1 日百分原始样品的可能是1的偏估计ST百分点的人口。如果是这样,则应该对点估计值进行偏差调整:。否则,偏差调整后的置信区间将与偏差未经调整的点估计不兼容。我需要调整点估计和置信区间,或者都不调整。X - 偏置X-偏压x-\text{bias} 另一方面,如果我不允许估计有偏差,则不必进行偏差调整。也就是说,我将作为点估计,将作为下限,将作为95%的上限。置信区间。我不确定这个间隔是否合理...XXxx − (X米Ë 一个Ñ-X0.025)X-(X米Ë一个ñ-X0.025)x-(x_{mean}-x_{0.025})x + (X0.975-X米Ë 一个Ñ)X+(X0.975-X米Ë一个ñ)x+(x_{0.975}-x_{mean}) 所以,这有什么意义假设样品1 日百分比是人口1的偏估计ST百分?如果不是,我的替代解决方案是否正确?

1
如何解释套索模型中排除或包含的变量?
我从其他帖子中得知,不能将“重要性”或“重要性”归因于进入套索模型的预测变量,因为计算这些变量的p值或标准差仍在进行中。 在这种推理下,断言一个人不能说套索模型中排除的变量是“无关紧要”还是“无关紧要”是正确的吗? 如果是这样,对于套索模型中排除或包含的变量,我实际上能提出什么主张?在我的特定情况下,我通过重复10次交叉验证100次来选择调整参数lambda,以减少randonmess并平均误差曲线。 UPDATE1:我遵循以下建议,并使用引导程序示例重新运行套索。我试了100个样本(这是我的计算机功能可以在一夜之间解决的数量),并且出现了一些模式。我的41个变量中的2个进入模型的次数超过95%,3个变量超过90%,5个变量超过85%。当我使用原始样本运行模型时,这5个变量属于进入模型的9个变量,是当时系数值最高的变量。如果我运行带有1000个引导程序样本的套索并且保留了这些模式,那么呈现结果的最佳方法是什么? 1000个引导程序样本听起来是否足够?(我的样本大小为116) 我是否应该列出所有变量以及它们进入模型的频率,然后认为输入频率更高的变量更有意义? 就我所能要求的范围而言吗?因为它正在进行中(请参见上文),所以我不能使用截止值,对吗? UPDATE2:根据以下建议,我计算出以下内容:平均而言,原始模型中的变量有78%进入了为100个自举样本生成的模型。另一方面,反之则只有41%。这在很大程度上与以下事实有关:为引导程序样本生成的模型往往比原始模型(9)包含更多的变量(平均17个)。 UPDATE3:如果你能帮助我解释我是从引导和蒙特卡罗模拟得到的结果,请看看这个其他职位。

1
可以使用引导重采样来计算数据集方差的置信区间吗?
我知道,如果您多次对数据集进行重新采样并每次计算平均值,则这些均值将遵循正态分布(通过CLT)。因此,您可以对数据集的平均值计算置信区间,而无需对数据集的概率分布进行任何假设。 我想知道您是否可以对差异做类似的事情。也就是说,如果我要多次从数据集中重新采样并每次计算方差,那么这些方差会遵循一定的分布吗(不管数据集的原始概率分布是什么)? 我知道,如果原始数据集是正态的,则方差将遵循卡方分布。但是在不正常的情况下该怎么办?

2
自举样本的样本均值方差
令为不同的观察值(无联系)。令表示引导程序样本(来自经验CDF的样本),并令。找到E(\ bar {X} _ {n} ^ {*})和\ mathrm {Var}(\ bar {X} _ {n} ^ {*})。X1,...,XnX1,...,XnX_{1},...,X_{n}X∗1,...,X∗nX1∗,...,Xn∗X_{1}^{*},...,X_{n}^{*}X¯∗n=1n∑ni=1X∗iX¯n∗=1n∑i=1nXi∗\bar{X}_{n}^{*}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{*}E(X¯∗n)E(X¯n∗)E(\bar{X}_{n}^{*})Var(X¯∗n)Var(X¯n∗)\mathrm{Var}(\bar{X}_{n}^{*}) 到目前为止,我得到的是X∗iXi∗X_{i}^{*}是X1个,。。。,XñX1,...,XnX_{1},...,X_{n}每个概率为1个ñ1n\frac{1}{n}所以 Ë(X∗一世)=1个ñË(X1个)+ 。。。+1个ñË(Xñ)=ñ μñ= μË(X一世∗)=1个ñË(X1个)+。。。+1个ñË(Xñ)=ñμñ=μ E(X_{i}^{*})=\frac{1}{n}E(X_{1})+...+\frac{1}{n}E(X_{n})=\frac{n\mu}{n}=\mu 和 Ë(X* 2一世)=1个ñË(X21个)+ 。。。+1个ñË(X2ñ)=n (μ2+σ2)ñ=μ2+σ2,Ë(X一世∗2)=1个ñË(X1个2)+。。。+1个ñË(Xñ2)=ñ(μ2+σ2)ñ=μ2+σ2,E(X_{i}^{*2})=\frac{1}{n}E(X_{1}^{2})+...+\frac{1}{n}E(X_{n}^{2})=\frac{n(\mu^{2}+\sigma^{2})}{n}=\mu^{2}+\sigma^{2}\>, 给出 V 一[R (X∗一世)= E(X* 2一世)- (E(X∗一世))2=μ2+σ2-μ2=σ2。V一个[R(X一世∗)=Ë(X一世∗2)-(Ë(X一世∗))2=μ2+σ2-μ2=σ2。 \mathrm{Var}(X_{i}^{*})=E(X_{i}^{*2})-(E(X_{i}^{*}))^{2}=\mu^{2}+\sigma^{2}-\mu^{2}=\sigma^{2} \>. 然后, Ë(X¯∗ñ)= E(1个ñ∑我= 1ñX∗一世)=1个ñ∑我= 1ñË(X∗一世)=ñ μñ= μË(X¯ñ∗)=Ë(1个ñ∑一世=1个ñX一世∗)=1个ñ∑一世=1个ñË(X一世∗)=ñμñ=μE(\bar{X}_{n}^{*})=E(\frac{1}{n}\sum_{i=1}^{n}X_{i}^{*})=\frac{1}{n}\sum_{i=1}^{n}E(X_{i}^{*})=\frac{n\mu}{n}=\mu 和 V 一[R (X¯∗ñ)= V a r(1个ñ∑我= 1ñX∗一世)=1个ñ2∑我= …


3
如何测试/证明数据为零膨胀?
我有一个问题,我认为应该很简单,但无法完全解决。我正在查看种子授粉,我有成簇开花的植物(n = 36),我从每棵植物中采样了3个花簇,并从每个簇中采样了6个种子荚(每个植物总计18个种子荚)。一个豆荚可以授粉0到4个种子。因此,数据是有上限的计数。我发现平均约有10%的种子被授粉,但在给定植物上的授粉量介于1%至30%之间,因此在分散的数据上,当然,在3棵植物上有4个缺失的簇重复,因此不完全对称。 我要问的问题是,这些数据是否支持这种植物需要传粉媒介进行结实的想法。 我发现一个豆荚中种子数量的分布看起来比有更多的0个授粉种子豆荚(16个中有6-9个豆荚)以及更多的3个和4个授粉种子豆荚(每个有2-4个)如果种群中的种子只是随机授粉,这是可以预期的。基本上,我认为这是零膨胀数据的经典示例,首先,昆虫完全不访问花朵(一个零生成器),如果这样做,则在另一个分布中对0-4的种子进行授粉。另一个假设是植物是部分自交的,然后可以预期每个种子都具有相同的授粉概率(此数据表明大约有0.1的机会,这意味着同一荚中的两粒种子有0.01的机会,依此类推) 。 但是我只是想证明数据最适合一种或另一种分布,而不是实际上对数据进行ZIP或ZINB处理。我认为我使用的任何方法都应考虑到授粉种子的实际数量和每棵植物上采样的豆荚的数量。我想到的最好的事情是做某种引导带事情,我只是将给定植物的授粉种子数量随机分配到我采样的种子荚数量中,进行10,000次,看看有多大可能性给定植物的实验数据来自该随机分布。 我只是觉得有些事情比蛮力自举要容易得多,但是经过几天的思考和搜索,我放弃了。我不能仅将其与Poisson分布进行比较,因为它是上限,它不是二项式的,因为我需要以某种方式生成期望的分布。有什么想法吗?而且我正在使用R,所以这里的建议(尤其是如何最优雅地将10,000个n球的随机分布生成到16个可以最多包含4个球的盒子中)。 ADDED 9/07/2012首先,感谢大家的关注和帮助。阅读答案,使我想重新表达我的问题。我要说的是,我有一个假设(种子现在我认为是无效的),即种子在豆荚之间随机授粉,而我的另一种假设是,至少有1个授粉种子的种子荚更可能种子的授粉种子数量多于随机过程所预期的数量。我提供了来自三个工厂的真实数据作为示例,以说明我在说什么。第一列是豆荚中已授粉种子的数量,第二列是具有该种子数的豆荚的频率。 植物1(总共3粒种子:4%授粉) 种子数:: pod.freq 0 :: 16 1 :: 1 2 :: 1 3 :: 0 4 :: 0 植物2(总共19粒种子:26%授粉) num.seeds :: pod.freq 0 :: 12 1 :: 1 2 :: 1 3 :: 0 4 :: 4 植物3(总共16粒种子:22%授粉) num.seeds :: …

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
回归系数的倒数分布
假设我们有一个线性模型 ÿ一世=β0+β1个X一世+ϵ一世yi=β0+β1xi+ϵiy_i = \beta_0 + \beta_1 x_i + \epsilon_i符合所有标准回归(Gauss-Markov)假设。我们有兴趣θ = 1 /β1个θ=1/β1\theta = 1/\beta_1。 问题1:分配的必要条件是什么θ^θ^\hat{\theta} 定义清楚吗? β1个≠ 0β1≠0\beta_1 \neq 0 会很重要-其他吗? 问题2:添加假设误差遵循正态分布。我们知道,如果β^1个β^1\hat{\beta}_1 是MLE, G(⋅ )g(⋅)g(\cdot) 是单调函数,则 G(β^1个)g(β^1)g\left(\hat{\beta}_1\right) 是MLE g(β1)g(β1)g(\beta_1)。单调性仅在β1β1\beta_1?换句话说,是θ^=1/β^θ^=1/β^\hat{\theta} = 1/\hat{\beta}MLE?连续映射定理至少告诉我们该参数是一致的。 问题3: Delta方法和自举程序是否都是寻找分布的合适方法?θ^θ^\hat{\theta}? 问题4:这些答案如何更改参数γ=β0/β1γ=β0/β1\gamma = \beta_0 / \beta_1? 旁白:我们可能会考虑重新布置问题以解决 xi=β0β1+1β1yi+1β1ϵi=γ+θyi+1β1ϵixi=β0β1+1β1yi+1β1ϵi=γ+θyi+1β1ϵi\begin{align*} x_i &= \frac{\beta_0}{\beta_1} + \frac{1}{\beta_1} y_i + \frac{1}{\beta_1} \epsilon_i \\ …


4
如何在2 X 3桌子上进行多个事后卡方检验?
我的数据集包括近海,中海道和近海三种地点类型的生物的总死亡率或生存率。下表中的数字表示站点数。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 我想知道根据地点​​类型,发生100%死亡率的地点数量是否显着。如果我运行2 x 3卡方,则会得到显着的结果。我是否可以进行事后成对比较,或者实际上应该使用对数方差分析或二项分布的回归?谢谢!

1
这种引导程序有名称吗?
考虑一个有多个人类参与者的实验,每个参与者在两种条件下进行了多次测量。可以将混合效果模型表示为(使用lme4语法): fit = lmer( formula = measure ~ (1|participant) + condition ) 现在,假设我要为该模型的预测生成自举置信区间。我想我已经想出了一种简单且计算效率高的方法,并且我确定我不是第一个想到这种方法的人,但是我很难找到任何以前的出版物来描述这种方法。这里是: 拟合模型(如上所述),将其称为“原始模型” 从原始模型中获得预测,将其称为“原始预测” 从与每个参与者的每个响应相关联的原始模型中获取残差 对残差重新采样,对参与者进行替换采样 将具有高斯误差的线性混合效应模型拟合到残差,将其称为“过渡模型” 根据每个条件计算临时模型的预测(这些预测将非常接近零),将其称为“临时预测” 将临时预测添加到原始预测中,将结果称为“重采样预测” 重复多次执行步骤4到7,为每个条件生成一次重采样预测分布,从中可以一次计算CI。 我已经在简单回归(即非混合模型)的背景下看到了“残差自举”程序,其中残差被采样为重采样的单位,然后将其添加到原始模型的预测中,然后在每次迭代的新模型上拟合一个新模型。引导程序,但这似乎与我描述的方法不同,我从未描述过残差永远不会被重新采样,人们只是在在原始模型预测起作用的情况下获得临时模型。最后一个功能有一个非常不错的附带好处,即不管原始模型的复杂性如何,过渡模型都可以始终拟合为高斯线性混合模型,在某些情况下可以更快地进行拟合。例如,我最近有二项式数据和3个预测变量,我怀疑其中之一会引起强烈的非线性影响,因此我不得不使用二项式链接函数来使用广义加性混合建模。在这种情况下,拟合原始模型花费了一个多小时,而在每次迭代中拟合高斯LMM仅需几秒钟。 如果它已经是一个已知的过程,我真的不想在此声明优先权,因此,如果任何人都可以提供有关以前可能在何处描述的信息,我将不胜感激。(此外,如果此方法有任何明显的问题,请告诉我!)

1
我应该重新整理我的数据吗?
我们有一套生物学样品,价格昂贵。我们对这些样本进行了一系列测试,以生成用于构建预测模型的数据。为此,我们将样本分为训练(70%)和测试(30%)组。我们已经成功创建了一个模型,并将其应用于测试集,以发现性能“未达到最佳”。实验人员现在希望改善生物学测试,以创建更好的模型。假设我们无法获得新的样本,您是否建议我们重新整理样本以创建新的训练和验证集或坚持原来的划分。(我们没有任何迹象表明该部门存在问题)。

3
我们如何为置换测试的参数创建置信区间?
置换检验是基于从原始数据中随机抽取的置换重采样进行的显着性检验。引导重采样是在没有替换的情况下绘制的,而引导程序样本是在替换后绘制的。这是我在R中进行的简单置换测试的示例。(欢迎您发表评论) 置换测试具有很大的优势。他们不需要特定的总体形状,例如正态分布。它们适用于各种统计数据,而不仅适用于在零假设下具有简单分布的统计数据。无论总体的形状和大小如何,它们都可以给出非常准确的p值(如果使用了足够的排列)。 我还读到,给出一个置信区间和一个测试通常很有用,该测试是使用引导重采样而不是置换重采样创建的。 您能否解释(或仅给出R代码)如何构建置信区间(即,上述示例中两个样本的均值之间的差异)? 编辑 经过一番谷歌搜索,我发现了这有趣的读物。


1
我可以在每次MCMC迭代中对大型数据集进行二次采样吗?
问题:我想执行Gibbs采样以推断大型数据集的一些后验。不幸的是,我的模型不是很简单,因此采样速度太慢。我会考虑采用变型或并行方法,但在此之前…… 问题:我想知道是否可以在每次Gibbs迭代中从数据集中随机采样(替换),以便在每个步骤中学习的实例更少。 我的直觉是,即使我更改样本,我也不会更改概率密度,因此Gibbs样本不应注意到这一窍门。我对吗?是否有人提到过这样做?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.