Questions tagged «proportion»

比例是某种总数中属于特定种类的分数,或者(i)作为总数中一种类型的事物的计数,或者(ii)作为连续变量的组成部分。

1
将二项式GLMM(glmer)拟合为比例或分数的响应变量
我希望有人可以帮助解决我认为相对简单的问题,我想我知道答案,但未经证实,这已经成为我无法确定的事情。 我有一些计数数据作为响应变量,我想测量该变量如何随某物的比例存在而变化。 更详细地,响应变量是在多个站点中昆虫物种的存在的计数,因此例如采样一个站点10次,并且该物种可能出现4次。 我想看看这是否与这些地点植物整体群落中一组植物物种的比例存在相关。 这意味着我的数据如下所示(这只是一个示例) Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence 1, 5, 10, 0.5 2, 3, 10, 0.3 3, 7, 9, 0.6 4, 0, 9, 0.1 数据还包括位置的随机效应。 我想到了两种方法,一种是lmer将昆虫转换成一定比例的线性模型(),例如 lmer.model<-lmer(insectCount/NumberOfInsectSamples~ ProportionalPlantGroupPresence+(1|Location),data=Data) 第二个是二项式GLMM(glmer),例如 glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~ ProportionalPlantGroupPresence+(1|Location), data=Data,family="binomial") 我相信二项式聚光镜是正确的方法,但是它们会产生完全不同的结果。我似乎无法在网络上找到明确的答案,而仍然没有一点不确定性,并希望确保自己没有犯错。 任何帮助或对替代方法的见解将不胜感激。


1
为什么样本比例也没有二项分布
在二项式设置中,给出成功次数的随机变量X是二项式分布的。然后可以将样本比例计算为,其中是样本量。我的教科书指出 nXnXn\frac{X}{n}nnn 这一比例也不会有二项分布 但是,由于只是二项分布随机变量的缩放版本,它不也应具有二项分布吗? XXnXn\frac{X}{n}XXX


1
用比例和二项式分布确定样本大小
我正在尝试使用Sokal和Rohlf(3e)写的《生物统计学》一书来学习一些统计数据。这是第5章的练习,其中涵盖了概率,二项式分布和泊松分布。 我意识到有一个公式可以回答这个问题: 但是,该公式不在本文中。我想知道如何仅知道概率,所需的置信度和二项式分布来计算样本量。有没有涉及这一主题的资源?我已经尝试过Google,但是到目前为止,我所看到的都需要我无法访问的信息。n=4(p–√−q√)2n=4(p−q)2 n = \frac 4 {( \sqrt{p} - \sqrt{q} )^2}

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
测试比例和二进制分类器
我有一台生产零件的原型机。 在第一次测试中,该机器生产了零件,并且一个二进制分类器告诉我零件有缺陷(,通常且),而零件是好的。d 1 d 1 &lt; Ñ 1 d 1 / Ñ 1 &lt; 0.01 Ñ 1 ≈ 10 4 Ñ 1 - d 1ñ1个N1N_1d1个d1d_1d1个&lt; N1个d1&lt;N1d_1 < N_1d1个/N1个&lt; 0.01d1/N1&lt;0.01d_1/N_1<0.01ñ1个≈ 104N1≈104N_1\approx10^4ñ1个-d1个N1−d1N_1-d_1 然后,技术人员对机器进行一些更改,以减少缺陷零件的数量。 在第二次和随后的测试中,修改后的机器生成零件,并且相同的二进制分类器(未触及)告诉我零件有缺陷,无论如何与非常相似。d 2 d 2 / N 2 d 1 / N 1ñ2N2N_2d2d2d_2d2/ N2d2/N2d_2/N_2d1个/ N1个d1/N1d_1/N_1 技术人员想知道他的更改是否有效。 假设分类器是完美的(灵敏度为100%,特异性为100%),则可以对比例进行测试(使用R,我只输入prop.test(c(d1,d2),c(N1,N2)))。 但是分类器不是完美的,那么我如何考虑分类器的敏感性和特异性(都是未知的),以便正确地回答技术人员的问题?

3
为什么对于给定的n,比例的标准误差最大为0.5?
当所讨论的比例为0.5时,对于给定的N,比例的标准误差将是最大的,并且该比例的标准误差从0.5开始越小。当查看比例的标准误差的方程式时,我可以看到为什么会这样,但是我无法进一步解释。 除了公式的数学性质之外,还有其他解释吗?如果是这样,为什么估计比例(对于给定的N)在接近0或1时为何不确定性较小?

1
重复测量中比例样本的大小
我正在尝试帮助科学家针对沙门氏菌微生物的发生设计研究。他想将家禽养殖场的实验性抗菌制剂与氯(漂白剂)进行比较。由于沙门氏菌的本底率会随时间而变化,因此他计划在治疗之前和之后测量家禽含沙门氏菌的百分比。因此,测量值将是实验配方奶粉与氯配方奶粉之前/之后的沙门氏菌百分比之差。 谁能建议如何估算必要的样本量?假设背景率为50%;漂白后为20%;并且我们想检测实验配方是否将速率更改了+/- 10%。谢谢 编辑:我正在苦苦挣扎的是如何纳入背景利率。让我们将它们称为p3和p4,分别是漂白样品和实验样品的“沙门氏菌感染率”。因此,要估计的统计量是差异的差异:实验(之前-之后)-漂白(之前-之后)=(p0-p2)-(p3-p1)。为了在样本量计算中充分考虑“之前”比率p2和p3的采样变化---是否像使用p0(1-p0)+ p1(1-p1)+ p2(1-p2)一样简单+ p3(1-p3)在样本大小方程式中哪里有变化项?令所有样本大小相等,n1 = n2 = n。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.