Questions tagged «binomial»

二项式分布在固定数量的独立“试验”中给出“成功”的频率。对于可能会二项式分布的数据或有关此分布的理论的问题,请使用此标签。

4
如何评估装有lme4(> 1.0)的二项式GLMM的拟合度?
我有一个具有二项式分布和logit链接函数的GLMM,并且我觉得模型中没有很好地表示数据的重要方面。 为了测试这一点,我想知道数据是否通过对数刻度上的线性函数很好地描述了。因此,我想知道残差是否良好。但是,我无法确定要在哪个残差图上绘制以及如何解释该图。 请注意,我正在使用lme4的新版本(来自GitHub的开发版本): packageVersion("lme4") ## [1] ‘1.1.0’ 我的问题是:如何使用logit链接函数检查和解释二项式广义线性混合模型的残差? 以下数据仅代表我实际数据的17%,但是拟合在我的机器上已经花费了大约30秒,因此我将其保留为: require(lme4) options(contrasts=c('contr.sum', 'contr.poly')) dat <- read.table("http://pastebin.com/raw.php?i=vRy66Bif") dat$V1 <- factor(dat$V1) m1 <- glmer(true ~ distance*(consequent+direction+dist)^2 + (direction+dist|V1), dat, family = binomial) 最简单的绘图(?plot.merMod)会产生以下结果: plot(m1) 这已经告诉我一些事情了吗?

3
Logistic回归如何使用二项式分布?
我试图了解逻辑回归如何使用二项式分布。 假设我正在研究鸟巢的成功。嵌套成功的概率为0.6。使用二项分布,我可以计算n次试验(研究的巢数)后r次成功的概率。 但是,在建模环境中如何使用二项式分布?假设我想知道平均温度如何影响筑巢成功,并且我使用逻辑回归研究了这个问题。 在我描述的上下文中,逻辑回归如何使用二项式分布? 我正在寻找一个直观的答案,因此没有方程式的答案!我认为方程式只有在直观的理解水平上才有用。

4
在二项式模型中使用偏移量来说明患者数量的增加
我提出了两个相关问题。我有一个数据框,该数据框在一列中包含患者人数(范围为10-17位患者),分别显示当天是否发生事件的0和1。我使用的是二项式模型来将事件的概率回归到患者人数上。但是,我想适应这样一个事实:当有更多的病人时,不可避免地会发生更多的事件,因为那天病房的病人总时间更长。 所以我正在使用像这样的偏移二项式模型(R代码): glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata) 我的问题是: 可以完全相同地预测变量和偏移量吗?我想部分排除进补概率的增加,从本质上看是否还有剩余。这对我来说很有意义,但是如果我弄错了,我会有些谨慎。 偏移量指定正确吗?我知道在泊松模型中会读到 offset=log(Numbers) 我不知道这里是否有等效项,而且我似乎找不到与Google相关的二项式偏移量(主要问题是我不断得到负二项式,这当然是不好的)。

3
在N次成功之前,我该如何模拟翻转?
你和我决定玩一个游戏,大家轮流掷硬币。第一位总共翻转10个头的玩家将赢得比赛。自然,关于谁应该先走有一个争论。 此游戏的模拟结果显示,前一个掷骰的玩家比第二个掷骰的玩家赢6%(第一个掷骰的玩家大约有53%的时间获胜)。我有兴趣对此进行建模分析。 这不是二项式随机变量,因为没有固定的试验次数(直到有人得到10个脑袋时才翻转)。我该如何建模?它是负二项式分布吗? 为了能够重新创建我的结果,这是我的python代码: import numpy as np from numba import jit @jit def sim(N): P1_wins = 0 P2_wins = 0 for i in range(N): P1_heads = 0 P2_heads = 0 while True: P1_heads += np.random.randint(0,2) if P1_heads == 10: P1_wins+=1 break P2_heads+= np.random.randint(0,2) if P2_heads==10: P2_wins+=1 break return P1_wins/N, …

1
在原假设下模拟二项式检验时p值的非均匀分布
我听说在零假设下,p值分布应该是均匀的。但是,在MATLAB中进行二项式检验的仿真返回的均值分布与均值大于0.5(在这种情况下为0.518)的差异非常大: coin = [0 1]; success_vec = nan(20000,1); for i = 1:20000 success = 0; for j = 1:200 success = success + coin(randperm(2,1)); end success_vec(i) = success; end p_vec = binocdf(success_vec,200,0.5); hist(p_vec); 尝试更改生成随机数的方式无济于事。我真的很感谢在这里的任何解释。

2
二项式分布的贝叶斯估计
这个问题的技术跟进这个问题。 我在理解和复制Raftery(1988)中NNN提出的模型时遇到了麻烦:二项式参数的推论: WinBUGS / OpenBUGS / JAGS中的分层贝叶斯方法。它不仅与代码有关,因此在这里应该是主题。 背景 令是一组来自未知和的二项式分布的成功计数。此外,我假设遵循参数的泊松分布(如本文所述)。然后,每个的泊松分布均值为。我想根据和指定先验。ñ θ Ñ μ X 我 λ = μ θ λ θx=(x1,…,xn)x=(x1,…,xn)x=(x_{1},\ldots,x_{n})NNNθθ\thetaNNNμμ\muxixix_{i}λ=μθλ=μθ\lambda = \mu \thetaλλ\lambdaθθ\theta 假设我对或没有任何先验知识,我想为和分配非信息先验。说,我的先验是和。θ λ θ λ 〜ģ 一米米一(0.001 ,0.001 )θ 〜ü Ñ 我˚F ö ř 米(0 ,1 )NNNθθ\thetaλλ\lambdaθθ\thetaλ∼Gamma(0.001,0.001)λ∼Gamma(0.001,0.001)\lambda\sim \mathrm{Gamma}(0.001, 0.001)θ∼Uniform(0,1)θ∼Uniform(0,1)\theta\sim \mathrm{Uniform}(0, 1) 作者使用不当先验,但WinBUGS不接受不当先验。p(N,θ)∝N−1p(N,θ)∝N−1p(N,\theta)\propto N^{-1} 例 在纸(第226)中,提供了观察到的水羚的以下成功计数:。我想估计,即人口的大小。Ñ53,57,66,67,7253,57,66,67,7253, 57, 66, 67, …

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

4
如何确定在线扑克网站是否公平?
上周,我与我的一个好朋友进行了有趣的讨论。他一直在玩一些在线扑克游戏,并建议新的订阅/其他转账与您所获得的卡之间存在某种关系,即,您获得了不错的卡而上瘾。如果这是真的,那么网站可能会冒很大的风险,但是问题仍然让我着迷。 我的第一种方法是让我的朋友定义“好卡片”并进行简单的二项式检验。我的朋友很难定义什么是好卡片。如果他真的得到了不好的牌,他就知道弃牌,而如果他得到了好牌,他就知道全押-劣牌是介于两者之间的牌。 我的另一种方法是计算每只给定手牌的确切概率,然后查看它是否与预期不同,也许使用Wilcoxon符号秩检验,因为这应该检测到不同的分布形状以及真实的移动。我想最难的部分是计算确切的概率。 数据将包含最初的0-100张发牌,而一周后为300-400张发牌(或在网站上待了一段时间的朋友)。 问题:您如何建议解决此问题? 德州扑克的运作方式 我不是专家,玩家(我只玩德州扑克的3-4倍),但它是相当简单的,你可以找到的维基百科页面的更多细节在这里。 与常规扑克的主要区别是开始时只能获得2张牌。您无需切换这些卡。桌上还有另外5张牌面朝下。通过将您的两个与表5相结合,您可以选择5张最好的纸牌游戏手。 例如,如果您获得2个A,您将有一个良好的开端,并且可能会获得强大的成绩;同样,如果您拥有7和2,您的获胜机会非常渺茫,并且您很快弃牌。困难的部分可能是女王/王后和9,尽管您的牌面高于“平均数”,但您最终可能一无所有。您可以在此处找到扑克手名单。

7
直观地理解为什么泊松分布是二项式分布的极限情况
在DS Sivia的“数据分析”中,从二项式分布推导了泊松分布。 他们认为,当M→∞M→∞M\rightarrow\infty,泊松分布是二项式分布的极限情况,其中MMM是试验次数。 问题1:如何直观地理解该论点? 问题2:为什么large- MMM的限制M!N!(M−N)!M!N!(M−N)!\frac{M!}{N!(M-N)!}等于MNN!MNN!\frac{M^{N}}{N!},其中M次试验的成功次数为?(此步骤用于推导中。)NNNMMM

1
二项式随机变量的预测区间
二项式随机变量的预测间隔的公式(近似或精确)是什么? 假设ÿ〜乙我Ñ ø 米(Ñ ,p )Y∼Binom(n,p)Y \sim \mathsf{Binom}(n, p),和我们观察ÿyy(从绘制ÿYY)。该ñnn是已知的。 我们的目标是从获得新抽签的95%预测间隔ÿYY。 点估计是ñ p^np^n\hat{p},其中p = ÿp^= yñp^=yn\hat{p}=\frac{y}{n}。对于A置信区间 p是直截了当的,但我不能找到针对预测时间间隔的公式ÿ。如果我们知道p(而不是 p ),那么95%的预测区间只是涉及寻找一个二项式的位数。有什么明显的我可以忽略的吗?p^p^\hat{p}ÿYYpppp^p^\hat{p}

2
R:glm函数,族=“二项式”和“重量”规格
我对体重与family =“ binomial”在glm中的工作方式非常困惑。在我的理解中,具有family =“ binomial”的glm的可能性指定如下: ,其中y是“观察到的成功比例”,n是已知的试验次数。ynf(y)=(nny)pny(1−p)n(1−y)=exp(n[ylogp1−p−(−log(1−p))]+log(nny))f(y)=(nny)pny(1−p)n(1−y)=exp⁡(n[ylog⁡p1−p−(−log⁡(1−p))]+log⁡(nny)) f(y) = {n\choose{ny}} p^{ny} (1-p)^{n(1-y)} = \exp \left(n \left[ y \log \frac{p}{1-p} - \left(-\log (1-p)\right) \right] + \log {n \choose ny}\right) yyynnn 以我的理解,成功概率ppp由一些线性系数\ beta参数ββ\beta化为p=p(β)p=p(β)p=p(\beta)并且glm函数带有family =“ binomial”搜索: argmaxβ∑ilogf(yi).argmaxβ∑ilog⁡f(yi). \textrm{arg}\max_{\beta} \sum_i \log f(y_i). 然后可以将此优化问题简化为: arg 最大β∑一世日志F(y一世)= arg 最大值β∑一世ñ一世[ y一世日志p (β)1 − p (β)- (- 日志(1 − …

2
逻辑回归中的过度分散
我正在尝试处理逻辑回归中过度分散的概念。我已经读到过度分散是指观察到的响应变量方差大于二项式分布的预期值。 但是,如果一个二项式变量只能具有两个值(1/0),那么它如何具有均值和方差? 我可以通过x次数的Bernoulli试验来计算成功的均值和方差。但是我无法将只能具有两个值的变量的均值和方差的概念笼罩在脑海中。 任何人都可以提供以下内容的直观概述: 只能有两个值的变量的均值和方差的概念 只能有两个值的变量中的超分散概念

2
我不明白二项式的方差
即使问这样一个基本问题,我也感到很愚蠢,但这里有: 如果我有一个随机变量可以取值和,且和,那么如果我从中抽取样本,我将得到二项式分布。XXX000111P(X=1)=pP(X=1)=pP(X=1) = pP(X=0)=1−pP(X=0)=1−pP(X=0) = 1-pnnn 分布的平均值是 μ=np=E(X)μ=np=E(X)\mu = np = E(X) 分布的方差为 σ2=np(1−p)σ2=np(1−p)\sigma^2 = np(1-p) 这是我的麻烦开始的地方: 方差由。因为两个可能的结果的平方不改变任何东西(和),所以意味着,这意味着 X 0 2 = 0 1 2 = 1 ë (X 2)= È (X )σ2=E(X2)−E(X)2σ2=E(X2)−E(X)2\sigma^2 = E(X^2) - E(X)^2XXX02=002=00^2 = 012=112=11^2 = 1E(X2)=E(X)E(X2)=E(X)E(X^2) = E(X) σ2=E(X2)−E(X)2=E(X)−E(X)2=np−n2p2=np(1−np)≠np(1−p)σ2=E(X2)−E(X)2=E(X)−E(X)2=np−n2p2=np(1−np)≠np(1−p)\sigma^2 = E(X^2) - E(X)^2 = E(X) …

5
在n项伯努利试验序列中,有k次成功的概率
我正在尝试找出在25个试验的区块中连续进行8个试验的概率,您总共有8个区块(在25个试验中)要连续进行8个试验。根据猜测使任何试验正确的概率为1/3,在连续获得8个正确的块之后,该块将终止(因此,从技术上讲不可能连续获得8个以上的正确)。我将如何查找发生这种情况的可能性?我一直在考虑使用(1/3)^ 8作为连续正确获得8的可能性,如果我乘以17,则有17种可能的机会在25个试验的区块中连续获得8可能性*我得到136的8个块,在这种情况下1-(1-(1/3)^ 8)^ 136是否会让我有可能连续获得8个正确的数据?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.