Questions tagged «binomial»

二项式分布在固定数量的独立“试验”中给出“成功”的频率。对于可能会二项式分布的数据或有关此分布的理论的问题,请使用此标签。

2
为什么对于二项式glmm,SAS PROC GLIMMIX给我的随机斜率与glmer(lme4)有很大不同
我是一位更熟悉R的用户,并且一直在尝试针对5个生境针对四个栖息地变量在5年内估计约35个个体的随机斜率(选择系数)。响应变量是某个位置是“已使用”(1)还是“可用”(0)栖息地(下面的“使用”)。 我正在使用Windows 64位计算机。 在R版本3.1.0中,我使用下面的数据和表达式。PS,TH,RS和HW是固定效应(对生境类型的标准化测量距离)。lme4 V 1.1-7。 str(dat) 'data.frame': 359756 obs. of 7 variables: $ use : num 1 1 1 1 1 1 1 1 1 1 ... $ Year : Factor w/ 5 levels "1","2","3","4",..: 4 4 4 4 4 4 4 4 3 4 ... $ ID : …

2
为什么这种分配是统一的?
我们正在调查贝叶斯统计检验,并且遇到一种奇怪的现象(对我来说至少是这样)。 考虑以下情况:我们有兴趣测量哪个人口A或B具有较高的转化率。对于健全性检查,我们将设置,也就是说,两组转换的可能性相等。我们使用二项式模型生成人工数据,例如pA=pBpA=pBp_A = p_BnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) 然后,我们尝试使用贝叶斯beta二项式模型估计以便获得每种转换率的后验,例如pA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) 我们的测试统计量是通过蒙特卡洛通过计算来计算的。S=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) 令我惊讶的是,如果,则。我的想法是,随着样本大小增加,它将以0.5为中心,甚至收敛到0.5 。 pA=pBpA=pBp_A = p_BS∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}NNN 我的问题是,为什么 当时?p 甲 = p 乙S∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}pA=pBpA=pBp_A = p_B 这是一些Python代码来演示: %pylab from scipy.stats import beta …

3
二项式Fisher信息与成反比的直观原因
它使二项式的方差与成正比,这使我感到困惑/不高兴。等效地,Fisher信息与成正比。这是什么原因呢?为什么在将Fisher信息最小化?也就是说,为什么在推理最困难?1p (1 − p )p(1−p)p(1-p) p=0.5p=0.51个p (1 − p )1p(1−p)\frac{1}{p(1-p)}p = 0.5p=0.5p=0.5p = 0.5p=0.5p=0.5 内容: 我正在使用样本量计算器,并且的公式(所需的样本量)是的增加因子,这是推导中方差估计的结果。p (1 − p )ñNNp (1 − p )p(1−p)p(1-p)

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
分层贝叶斯模型(?)
请为统计术语but之以鼻:)我在这里发现了几个与广告和点击率有关的问题。但是他们对我的等级状况的了解都没有对我有太大帮助。 还有一个相关的问题,即相同的贝叶斯模型的这些等效表示吗?,但我不确定它们是否确实存在类似问题。另一个问题是贝叶斯分层二项式模型的先验论证了有关超优先级的细节,但是我无法将其解决方案映射到我的问题上 我在网上有几个新产品的广告。我让广告投放了几天。到那时,足够多的人点击了广告,以查看哪个获得了最多的点击。在排除所有点击次数最多的广告之后,我让该广告再运行几天,以查看点击广告后实际有多少人购买。那时我知道首先投放广告是否是个好主意。 我的统计数据非常嘈杂,因为我每天只卖几件商品,所以我没有很多数据。因此,很难估计看到广告后有多少人买东西。每150次点击中只有约1次导致购买。 一般而言,我需要通过某种方式使用所有广告的全局统计信息来平滑每个广告组的统计信息,以了解是否会尽快在每个广告上赔钱。 如果我等到每个广告都看到足够的购买,我就会破产,因为它花费的时间太长:测试10个广告,我需要多花10倍的钱,以便每个广告的统计数据足够可靠。到那时我可能已经亏钱了。 如果我平均购买所有广告,那么我将无法淘汰效果不佳的广告。 我可以使用全球购买率( N $子分配的优先级吗?这意味着我为每个广告获得的数据越多,该广告获得的统计信息就越独立。如果没有人点击广告,我认为全球平均水平是合适的。perclick)anduseitasapriorforperclick)anduseitasapriorfor per click) and use it as a prior for 我会为此选择哪个发行版? 如果我在A上有20次点击,在B上有4次点击,该如何建模?到目前为止,我已经发现二项分布或泊松分布在这里可能有意义: purchase_rate ~ poisson (?) (purchase_rate | group A) ~ poisson (仅估算A组的购买率?) 但是,接下来我该怎么做才能真正计算出purchase_rate | group A。如何将两个发行版连接在一起以使组A(或任何其他组)有意义。 我必须先拟合模型吗?我有可用于“训练”模型的数据: 广告A:352次点击,5次购买 广告B:15次点击,0次购买 广告C:3519次点击,130次购买 我正在寻找一种方法来估计任何一组的概率。如果一个组只有几个数据点,那么我本质上想回落到全局平均值。我对贝叶斯统计信息有些了解,并且阅读了很多PDF,这些人描述了如何使用贝叶斯推理和共轭先验进行建模等。我认为有一种方法可以正确执行此操作,但是我无法弄清楚如何正确建模。 我会很高兴能以贝叶斯方式解决问题的提示。这将对在线查找示例产生很大帮助,我可以使用这些示例来实际实现此目标。 更新: 非常感谢您的回复。我开始对我的问题越来越了解。谢谢!让我问几个问题,看看我现在对这个问题的理解是否更好: 因此,我假设转换是作为Beta分布分布的,并且Beta分布具有两个参数和。baaabbb 所述的参数是超参数,所以它们的参数现有?因此,最终我将转化次数和点击次数设置为Beta分发的参数吗? 11212\frac{1}{2} 1212\frac{1}{2} 在某些时候,当我想比较不同的广告时,我会计算。如何计算该公式的每个部分?P(conversion|ad=X)=P(ad=X|conversion)∗P(conversion)P(ad=X)P(conversion|ad=X)=P(ad=X|conversion)∗P(conversion)P(ad=X)P(\mathrm{conversion} | …

4
二项式分布的估计量
我们如何定义来自二项分布的数据的估计量?对于bernoulli,我可以想到一个估计器来估计参数p,但是对于二项式,当我们对分布进行特征化时,我看不到要估计哪些参数? 更新: 估计量是指观测数据的函数。估计器用于估计生成数据的分布的参数。

3
模具100卷没有面孔出现超过20次
我正在努力解决这个问题。 模具被轧制100次。没有面孔出现超过20次的概率是多少?我的第一个想法是使用二项分布P(x)= 1-6 cmf(100,1/6,20),但这显然是错误的,因为我们对某些情况进行了多次计算。我的第二个想法是枚举所有可能的滚动x1 + x2 + x3 + x4 + x5 + x6 = 100,使得xi <= 20并将多项式求和,但这似乎计算量很大。近似解决方案也将对我有用。

3
可视化二元二项分布
问题:二元二项分布在3维空间中是什么样的? 下面是我想针对各种参数值可视化的特定功能;即,和。p 1 p 2nnnp1p1p_{1}p2p2p_{2} f(x1,x2)=n!x1!x2!px11px22,x1+x2=n,p1+p2=1.f(x1,x2)=n!x1!x2!p1x1p2x2,x1+x2=n,p1+p2=1.f(x_{1},x_{2}) = \frac{n!}{x_{1}!x_{2}!}p_{1}^{x_{1}}p_{2}^{x_{2}}, \qquad x_{1}+x_{2}=n, \quad p_{1}+p_{2}=1. 注意,有两个约束;和。另外,是一个正整数,例如。p 1 + p 2 = 1 n 5x1+x2=nx1+x2=nx_{1}+x_{2}=np1+p2=1p1+p2=1p_{1}+p_{2}=1nnn555 在使用LaTeX(TikZ / PGFPLOTS)进行了两次绘图功能的尝试。这样做,我得到以下图形的以下值:,和以及,和分别为。我尚未成功实现对域值的约束;,所以我有些困惑。p 1 = 0.1 p 2 = 0.9 n = 5 p 1 = 0.4 p 2 = 0.6 x 1 + x 2 = nn=5n=5n=5p1=0.1p1=0.1p_{1}=0.1p2=0.9p2=0.9p_{2}=0.9n=5n=5n=5p1=0.4p1=0.4p_{1}=0.4p2=0.6p2=0.6p_{2}=0.6x1+x2=nx1+x2=nx_{1}+x_{2}=n 用任何语言生成的可视化效果都很好(R,MATLAB等),但是我正在使用TikZ …

1
负二项式/泊松回归中的过度分散和分散不足
我在SAS中执行Poisson回归,发现Pearson卡方值除以自由度约为5,表明存在明显的过度分散。因此,我使用proc genmod拟合了负二项式模型,发现皮尔逊卡方值除以自由度是0.80。现在认为这是分散的吗?如果是这样,该如何处理呢?我已经阅读了很多有关过度分散的知识,并且相信我知道如何处理此问题,但是关于如何处理或确定是否存在分散不足的信息很少。有人可以协助吗? 谢谢。


1
给定参考人口,估计成功的可能性
假设您有以下情况: 您随着时间的推移观察到1000名保龄球运动员,他们每个人都玩相对较少的游戏(例如1到20)。您指出了每个玩家的罢工百分比超过每个玩家所玩游戏的数量。 一个新的保龄球选手进来,打了10场比赛,得到了3次罢工。 假定任何球员的罢工次数分布为二项式。 我想估计该球员成功的“真实”概率。 请注意以下几点: 这不是现实情况,也不是学校问题,只是一个自省的问题。 我是一名学生,其统计教育水平高于Stats 101课程。我对诸如最大似然估计之类的推论有所了解...所以随时告诉我应该阅读的统计数据领域。 我的问题可能缺少信息,或者如果它对成功概率的分布大致正常是有益的,请告诉我。 非常感谢你

3
抛硬币时应该使用二项式CDF还是普通CDF?
硬币需要进行公平性测试。翻转50次后,出现30个头。假设硬币是公平的,那么在50次翻转中至少获得30个正面的概率是多少? 我的老师说,解决这个问题的正确方法是 normalcdf(min = .6, max = ∞, p = .5, σ = sqrt(.5 * .5 / 50) = 0.0786 但是,我采用了这样的二项式累积分布函数 1 - binomcdf(n = 50, p = .5, x = 29) = 0.1013 我相信满足二项式分布的标准:单个事件是独立的,只有两种可能的结果(正面对反面),问题的概率恒定(0.5),并且试验次数固定为50然而,显然,这两种方法给出的答案不同,并且模拟支持我的答案(至少运行了几次;很明显,我不能保证您会得到相同的结果)。 我的老师是否认为正态分布曲线也是解决此问题的有效方法是错误的(决不是说正态分布是正态分布,而是n * p和n *(1-p)都大于10),还是我误解了二项式分布?


6
关于为什么从20,000次扔掉10,000个头部的统计论点表明数据无效
假设我们反复抛硬币,而且知道正面和反面的数量应该大致相等。当我们看到10个正面和10个反面的结果,总共进行20次抛掷时,我们相信结果,并倾向于认为硬币是公平的。 好吧,当您看到10000个头和10000个尾巴等总共20,000次抛掷的结果时,我实际上会质疑结果的有效性(实验者是否伪造了数据),因为我知道这比说结果更不可能10093头和9907头。 我的直觉背后的统计论据是什么?

6
将n点李克特量表数据视为来自二项式过程的n次试验是否合适?
我从来没有喜欢过人们通常如何分析李克特量表的数据,就像人们有合理的期望至少在量表的极端情况下违反了这些假设一样,误差是连续的和高斯的。您如何看待以下替代方案: 如果响应在n点尺度上取值为,则将该数据扩展到n个试验,其中k 个试验的值为1,n - k其试验的值为0。因此,我们将李克特量表的响应视为如果它是一系列二项式试验的秘密集合(实际上,从认知科学的角度来看,这实际上是此类决策场景中所涉及机制的吸引人模型)。使用扩展的数据,您现在可以使用混合效应模型,将响应者指定为随机效应(如果有多个问题,还可以将问题指定为随机效应),并使用二项式链接函数指定误差分布。ķkkñnnñnnķkkn − kn−kn-k 任何人都可以看到这种方法的任何假设违规或其他有害方面吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.