Questions tagged «binomial»

二项式分布在固定数量的独立“试验”中给出“成功”的频率。对于可能会二项式分布的数据或有关此分布的理论的问题,请使用此标签。

1
将二项式GLMM(glmer)拟合为比例或分数的响应变量
我希望有人可以帮助解决我认为相对简单的问题,我想我知道答案,但未经证实,这已经成为我无法确定的事情。 我有一些计数数据作为响应变量,我想测量该变量如何随某物的比例存在而变化。 更详细地,响应变量是在多个站点中昆虫物种的存在的计数,因此例如采样一个站点10次,并且该物种可能出现4次。 我想看看这是否与这些地点植物整体群落中一组植物物种的比例存在相关。 这意味着我的数据如下所示(这只是一个示例) Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence 1, 5, 10, 0.5 2, 3, 10, 0.3 3, 7, 9, 0.6 4, 0, 9, 0.1 数据还包括位置的随机效应。 我想到了两种方法,一种是lmer将昆虫转换成一定比例的线性模型(),例如 lmer.model<-lmer(insectCount/NumberOfInsectSamples~ ProportionalPlantGroupPresence+(1|Location),data=Data) 第二个是二项式GLMM(glmer),例如 glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~ ProportionalPlantGroupPresence+(1|Location), data=Data,family="binomial") 我相信二项式聚光镜是正确的方法,但是它们会产生完全不同的结果。我似乎无法在网络上找到明确的答案,而仍然没有一点不确定性,并希望确保自己没有犯错。 任何帮助或对替代方法的见解将不胜感激。

2
分配百分比数据
我有一个关于使用我的数据创建模型的正确分布的问题。我用50个地块进行了森林清查,每个地块的尺寸为20m×50m。对于每个图,我估计了遮蔽地面的树冠的百分比。每个地块都有一个以百分比表示的顶盖覆盖率值。百分比范围从0到0.95。我正在建立一个树冠覆盖率百分比模型(Y变量),并具有一个基于卫星图像和环境数据的独立X变量的矩阵。 我不确定是否应该使用二项式分布,因为二项式随机变量是n个独立试验的总和(即,伯努利随机变量)。百分比值不是试验的总和;它们是实际百分比。即使没有上限,我也应该使用伽玛吗?我应该将百分比转换为整数并使用泊松作为计数吗?我应该坚持使用高斯吗?我没有在文献或教科书中找到许多尝试以这种方式模拟百分比的示例。任何提示或见解表示赞赏。 谢谢您的回答。实际上,正是我需要的beta发行版,并在本文中进行了详细讨论: Eskelson,BN,Madsen,L.,Hagar,JC和Temesgen,H.(2011)。使用Beta回归和copula模型估算河岸底层植被覆盖度。森林科学,57(3),212-221。 这些作者使用Cribari-Neto和Zeileis的R中的betareg软件包。 下面的文章讨论了转换包含百分比范围内的真0和/或1的beta分布响应变量的好方法: Smithson,M.和J. Verkuilen,2006年。更好的柠檬榨汁器?具有β分布因变量的最大似然回归,《心理方法》,11(1):54–71。

2
随机图中三角形数量的分布和方差
考虑一个Erdos-Renyi随机图G=(V(n),E(p))G=(V(n),E(p))G=(V(n),E(p))。该组nnn顶点VVV由标V={1,2,…,n}V={1,2,…,n}V = \{1,2,\ldots,n\}。边缘的集合EEE通过随机过程构造。 让ppp是一个概率0&lt;p&lt;10&lt;p&lt;10<p<1,则每个二元集合{i,j}{i,j}\{i,j\}顶点(i≠ji≠ji \neq j)发生在边缘EEE以概率ppp,独立于其它对。 GGG中的三角形是不同顶点的无序三元组{i,j,k}{i,j,k}\{i,j,k\},因此{i,j}{i,j}\{i,j\},{j,k}{j,k}\{j,k\}和{k,i}{k,i}\{k,i\}是中的边GGG。 可能的三角形最大数量为。将随机变量定义为图观察到的三角形数。(n3)(n3)\binom{n}{3}XXXGGG 同时存在三个链接的概率为p3p3p^3。因此,X的期望值XXX由E(X)=(n3)p3E(X)=(n3)p3E(X) = \binom{n}{3} p^3。天真的,人们可能会猜测方差由E(X2)=(n3)p3(1−p3)E(X2)=(n3)p3(1−p3)E(X^2) =\binom{n}{3} p^3 (1-p^3),但事实并非如此。 下面的Mathematica代码模拟了该问题: n=50; p=0.6; t=100; myCounts=Table[Length[FindCycle[RandomGraph[BernoulliGraphDistribution[n,p]],3,All]],{tt,1,t}]; N[Mean[myCounts]] // 4216. &gt; similar to expected mean Binomial[n,3]p^3 // 4233.6 N[StandardDeviation[myCounts]] // 262.078 &gt; not similar to "expected" std Sqrt[Binomial[n,3](p^3)(1-p^3)] // 57.612 Histogram[myCounts] X的方差是XXX多少?

1
为什么样本比例也没有二项分布
在二项式设置中,给出成功次数的随机变量X是二项式分布的。然后可以将样本比例计算为,其中是样本量。我的教科书指出 nXnXn\frac{X}{n}nnn 这一比例也不会有二项分布 但是,由于只是二项分布随机变量的缩放版本,它不也应具有二项分布吗? XXnXn\frac{X}{n}XXX

1
有优惠券收集者问题的一般形式的公式吗?
我偶然发现了优惠券收集者的问题,并试图为通用化制定一个公式。 如果有NNN不同的对象,你想收集至少每个任何副本人(其中),什么是你应该有多少个随机购买对象的期望?正常的优惠券收集器问题有和。米米≤ Ñ 米= Ñ ķ = 1kkkmmmm≤Nm≤Nm \le Nm=Nm=Nm = Nk=1k=1k = 1 集合中有12个不同的乐高人物。我想收集10个(任意10个)图形中的每个图形的3个副本。我可以一次随机购买。在我每10个拥有3份副本之前,我应该期望购买多少个?


1
用比例和二项式分布确定样本大小
我正在尝试使用Sokal和Rohlf(3e)写的《生物统计学》一书来学习一些统计数据。这是第5章的练习,其中涵盖了概率,二项式分布和泊松分布。 我意识到有一个公式可以回答这个问题: 但是,该公式不在本文中。我想知道如何仅知道概率,所需的置信度和二项式分布来计算样本量。有没有涉及这一主题的资源?我已经尝试过Google,但是到目前为止,我所看到的都需要我无法访问的信息。n=4(p–√−q√)2n=4(p−q)2 n = \frac 4 {( \sqrt{p} - \sqrt{q} )^2}

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE &lt;- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

2
对数转换线性回归,对数回归与对数混合模型之间有什么区别?
假设我有10个学生,每个学生都尝试解决20个数学问题。对问题的评分为正确或不正确(在longdata中),每个学生的表现都可以通过准确性度量(在subjdata中)进行总结。下面的模型1、2和4看起来会产生不同的结果,但是我知道它们在做相同的事情。他们为什么产生不同的结果?(我提供了模型3作为参考。) library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)&lt;pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))


1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
二项式条件下未来成功比例的预测间隔
假设我拟合了二项式回归并获得了点估计和回归系数的方差-协方差矩阵。这样一来,我就可以为将来的实验的预期成功比例获得CI ,但是我需要为观察到的比例获得CI。已经发布了一些相关的答案,包括模拟(假设我不想这样做)和指向Krishnamoorthya等人的链接(并不能完全回答我的问题)。ppp 我的推理如下:如果仅使用二项式模型,则不得不假定是从正态分布中采样的(具有相应的Wald CI),因此不可能以封闭形式获得观察比例的CI。如果我们假设p是从beta分布中采样的,那么事情就容易多了,因为成功次数将遵循Beta-Binomial分布。我们将不得不假设估计的beta参数α和β没有不确定性ppppppαα\alphaββ\beta。 有三个问题: 1)理论上:仅使用beta参数的点估计值可以吗?我知道在多元线性回归中构造CI以便将来观察 ÿ= x′β+ ε ,ε 〜Ñ(0 ,σ2)ÿ=X′β+ϵ,ϵ〜ñ(0,σ2)Y = x'\beta + \epsilon, \epsilon \sim N(0, \sigma^2) 他们这样做的WRT误差项方差,。我把它(如果我错了纠正我)的理由是,在实践中σ 2估计比回归系数远远更高的精度,我们不会得到太多的试图将不确定性σ 2。类似的理由适用于估计的beta参数α和β吗?σ2σ2\sigma^2σ2σ2\sigma^2σ2σ2\sigma^2αα\alphaββ\beta 2)哪种软件包更好(R:gamlss-bb,betareg,odd ?;我也可以使用SAS)。 3)给定估计的beta参数,是否有(近似)捷径来获得未来成功计数的分位数(2.5%,97.5%),或者更好的是,根据Beta-Binomial分布获得未来成功的比例。

1
测试两个二项分布的样本是否符合相同的p
假设我已经完成: ñ1个ñ1个n_1独立试验,成功率未知,观察到成功。p1个p1个p_1ķ1个ķ1个k_1 ñ2ñ2n_2独立试验,成功率未知,观察到成功。p2p2p_2ķ2ķ2k_2 如果现在但仍然未知,则对于给定的观测的概率(反之亦然)与,所以如果我要测试p_1 \ neq p_2,则只需要查看观察值对应分布的哪个分位数即可。p1个=p2= : pp1个=p2=:pp_1 = p_2 =: pp (ķ2)p(ķ2)p(k_2)ķ2ķ2k_2ķ1个ķ1个k_1∫1个0B (ñ1个,p ,ķ1个)B (ñ2,p ,ķ2)d p =1个ñ1个+ñ2+ 1(ñ1个ķ1个)(ñ2ķ2)(ñ1个+ñ2ķ1个+ķ2)− 1∫01个乙(ñ1个,p,ķ1个)乙(ñ2,p,ķ2)dp=1个ñ1个+ñ2+1个(ñ1个ķ1个)(ñ2ķ2)(ñ1个+ñ2ķ1个+ķ2)-1个\int_0^1 B(n_1,p,k_1) B(n_2, p, k_2) \text{d}p = \frac{1}{n_1+n_2+1}\binom{n_1}{k_1}\binom{n_2}{k_2}\binom{n_1+n_2}{k_1+k_2}^{-1}p1个≠p2p1个≠p2p_1 \neq p_2 到目前为止,是为了重新发明轮子。现在我的问题是我无法在文献中找到它,因此我想知道:此测试的技术术语是什么?

1
对重复实验进行仿真研究的问题解释了95%的置信区间-我在哪里做错了?
我正在尝试编写R脚本来模拟95%置信区间的重复实验解释。我发现它高估了样本的95%CI中包含某个比例的真实总体值的时间比例。差异不大-大约是96%和95%,但这仍然令我感兴趣。 我的函数samp_n从伯努利分布中随机抽取了一个样本pop_p,然后prop.test()使用连续性校正或更精确地使用来计算95%的置信区间binom.test()。如果真实人口比例pop_p包含在95%CI中,则返回1 。我编写了两个函数,一个使用prop.test(),一个使用binom.test()并具有相似的结果: in_conf_int_normal &lt;- function(pop_p = 0.3, samp_n = 1000, correct = T){ ## uses normal approximation to calculate confidence interval ## returns 1 if the CI contain the pop proportion ## returns 0 otherwise samp &lt;- rbinom(samp_n, 1, pop_p) pt_result &lt;- prop.test(length(which(samp == 1)), samp_n) lb &lt;- pt_result$conf.int[1] …

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult &lt;- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn &lt;- function(data, indices){ data &lt;- data[indices, ] mod &lt;- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out &lt;- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.