Questions tagged «beta-distribution»

在区间上定义的两参数单变量分布族。 [0,1]

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 


3
β随机变量的反正态CDF遵循什么分布?
假设您定义: X∼Beta(α,β)X∼Beta(α,β)X\sim\mbox{Beta}(\alpha,\beta) Y∼Φ−1(X)Y∼Φ−1(X)Y\sim \Phi^{-1}(X) 其中Φ−1Φ−1\Phi^{-1}是的逆标准正态分布的CDF。 我的问题是:Y是否遵循简单分布,或者可以近似于Y?YYYYYY我问,因为我有一个基于模拟结果强烈怀疑(如下图所示),其YYY收敛为正态分布时,αα\alpha和ββ\beta都很高,但我不知道为什么它会数学。(当然,当α=1;β=1α=1;β=1\alpha=1;\beta=1,XXX将是均匀的,而YYY将是标准法线,但是为什么对于更高的值会成立呢?) 如果确实收敛到法线,那么就αα\alpha和而言,该法线的参数是什么ββ\beta?(我预计平均将Φ−1(αα+β)Φ−1(αα+β)\Phi^{-1}(\frac{\alpha}{\alpha+\beta})因为那是模式的变换,但我不知道标准差)。 (换句话说,这可能会问“ 对于μ和σ的某个方向,Φ(Norm(μ,σ))Φ(Norm(μ,σ))\Phi(\mbox{Norm}(\mu, \sigma))收敛到beta分布吗?”我不确定这是否更容易回答)。μμ\muσσ\sigma 仿真结果 在这里,我展示了为什么我怀疑结果是正常的(因为我无法用数学来支持它)。可以使用和在R中完成模拟。例如,选择较高的参数α = 3000和β = 7000:YYYqnormrnormα=3000α=3000\alpha=3000β=7000β=7000\beta=7000 hist(qnorm(rbeta(5000, 3000, 7000))) 这看起来很正常,qqnorm与夏皮罗-威尔克测试(其中正常是零假设),建议左右为好: qqnorm(qnorm(rbeta(5000, 3000, 7000))) shapiro.test(qnorm(rbeta(5000, 3000, 7000))) #> #> Shapiro-Wilk normality test #> #> data: qnorm(rbeta(5000, 3000, 7000)) #> W = 0.99954, p-value = 0.2838 为了更深入地探讨正态性,我执行了2,000次仿真,每次都模拟 5,000个值,然后执行测试以将其与正常值进行比较。(我选择5K值是因为这是可以处理的最大值,并且可以最大程度地检测出偏离规范的能力)。YYYshapiro.test 如果分布确实是正态分布,我们将期望p值是均匀的(因为null为true)。它们确实接近均匀,表明分布非常接近正态: hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, …

1
Beta安装在Scipy中
根据维基百科,β概率分布具有两个形状参数:和β。αα\alphaββ\beta 当我打电话scipy.stats.beta.fit(x)在Python,其中x是在范围内的一串数字,则返回4个值。这让我感到奇怪。[0,1][0,1][0,1] 谷歌搜索后,我发现返回值之一必须是“位置”,因为如果我调用,第三个变量为0 scipy.stats.beta.fit(x, floc=0)。 有谁知道第四个变量是什么,并且前两个变量是和β吗?αα\alphaββ\beta

3
beta分布从何而来?
我确定这里的每个人都已经知道,Beta分布的PDF 由X〜乙(一,b )X∼B(a,b)X \sim B(a,b) F(x )= 1B (a ,b )Xa − 1(1 − x )b − 1f(x)=1B(a,b)xa−1(1−x)b−1f(x) = \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1} 我一直在各地寻找有关该公式起源的解释,但我找不到它。我在Beta发行版上找到的每篇文章似乎都给出了这个公式,说明了它的一些形状,然后直接讨论其关键时刻。 我不喜欢使用无法推导和解释的数学公式。对于其他分布(例如伽马或二项式),有一个明确的推导可以学习和使用。但是我找不到类似的东西用于Beta发行版。 所以我的问题是:该公式的起源是什么?在最初开发的任何上下文中,如何从第一性原理中衍生出来? [为澄清起见,我不是在问如何在贝叶斯统计中使用Beta分布,或者在实践中直觉地意味着什么(我已经读过棒球示例)。我只想知道如何导出PDF。以前有一个问题提出了类似的问题,但是(我认为是错误的)它被标记为另一个未解决该问题的问题的重复,因此到目前为止,我在这里找不到任何帮助。] 编辑2017-05-06:谢谢大家的提问。我想对我想要的东西有一个很好的解释,当我向一些课程讲师问这个问题时,我得到了以下答案之一: “我想人们可以将正常密度推导为n个事物的总和除以sqrt(n)的极限,并且可以从事件以恒定速率发生的想法推导泊松密度。类似地,为了推导Beta密度,您将需要某种概念来确定什么使得Beta分布独立于密度,并且在逻辑上先于密度。” 因此,注释中的“从头开始”的想法可能最接近我要寻找的想法。我不是数学家,但是我使用能够推导的数学感到最自在。如果起源对我来说太先进了,那就去吧,但是如果不是,我想了解它们。

2
为什么这种分配是统一的?
我们正在调查贝叶斯统计检验,并且遇到一种奇怪的现象(对我来说至少是这样)。 考虑以下情况:我们有兴趣测量哪个人口A或B具有较高的转化率。对于健全性检查,我们将设置,也就是说,两组转换的可能性相等。我们使用二项式模型生成人工数据,例如pA=pBpA=pBp_A = p_BnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) 然后,我们尝试使用贝叶斯beta二项式模型估计以便获得每种转换率的后验,例如pA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) 我们的测试统计量是通过蒙特卡洛通过计算来计算的。S=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) 令我惊讶的是,如果,则。我的想法是,随着样本大小增加,它将以0.5为中心,甚至收敛到0.5 。 pA=pBpA=pBp_A = p_BS∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}NNN 我的问题是,为什么 当时?p 甲 = p 乙S∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}pA=pBpA=pBp_A = p_B 这是一些Python代码来演示: %pylab from scipy.stats import beta …



3
如何在R中使用betareg函数实现混合模型?
我有一个数据集,其中包含一些比例,这些比例用于测量个体t的“活动水平”,因此使值介于0和1之间。该数据是通过计算个体在特定时间间隔内移动的次数(移动为1, 0(表示不移动),然后取平均值以为每个人创建一个值。我的主要固定效果是“密度水平”。 我面临的问题是,我有一个因子变量“ pond”,我想将其作为随机效应包括在内-我不在乎池塘之间的差异,但希望从统计角度考虑它们。关于池塘的重要一点是,我只有3个,而且我了解在处理随机效应时理想的是具有更多的因子水平(5+)。 如果可能的话,我希望获得一些有关如何使用R betareg()或betamix()在R中实现混合模型的建议。我已经阅读了R帮助文件,但是我通常很难理解它们(每个参数在上下文中的真正含义是什么)我自己的数据以及输出值对生态意义的含义),因此我倾向于通过示例更好地工作。 在相关的说明中,我想知道是否可以代替使用glm()二项式族和logit链接来解决此类数据的随机影响。

2
掷硬币时的Beta分布
克鲁施克(Kruschke)的贝叶斯书说,关于使用Beta分布来掷硬币, 例如,如果除了硬币没有正面和反面的知识之外,我们没有其他先验知识,那等于先前观察到一个头和一条尾巴对应于a = 1和b = 1。 为什么没有信息等于看到一头一尾-0头和0尾对我来说似乎更自然。

3
在贝叶斯推断中先验了解贝塔共轭频率
以下摘录自《博尔斯塔德的贝叶斯统计概论》。 对于所有在那里的专家来说,这可能是微不足道的,但是我不明白作者是如何得出结论的,我们不必进行任何积分就可以计算出某个值的后验概率。我理解第二个表达式,它是比例关系以及所有条件的来源(似然x Prior)。而且,我知道,我们不必担心分母,因为只有分子是直接成比例的。但是,继续讲第三个方程式,我们是否就忘记了贝叶斯规则的分母?去哪了?而且由Gamma函数计算的值不是常数吗?常数不会在贝叶斯定理中抵消吗?ππ\pi

1
卡方因变量的比例分布
假设,其中是独立的。X 我〜Ñ (0 ,σ 2)X=X1+X2+⋯+XnX=X1+X2+⋯+Xn X = X_1 + X_2+\cdots+ X_n Xi∼N(0,σ2)Xi∼N(0,σ2)X_i \sim N(0,\sigma^2) 我的问题是,什么分布 Z=X2X21+X22+⋯+X2nZ=X2X12+X22+⋯+Xn2 Z = \frac{X^2}{X_1^2 + X_2^2 + \cdots + X_n^2} 跟随?从这里我知道两个表示为卡方随机变量的比率遵循Beta分布。我认为这假设和之间具有独立性。但是在我的情况下,的分母包含平方的成分。 WYZXWW+YWW+Y\frac{W}{W + Y}WWWYYYZZZXXX 我认为也必须遵循Beta分布的变化,但是我不确定。如果这个假设是正确的,我不知道如何证明它。ZZZ


4
如何(数值)估算具有较大alpha和beta的beta分布的近似值
是否存在一种数值稳定的方法来计算大整数alpha,beta(例如alpha,beta> 1000000)的beta分布值? 实际上,如果使问题变得更容易,我只需要围绕模式设置99%的置信区间即可。 补充:对不起,我的问题没有我想的那么清楚。我想要做的是:我有一台检查传送带上产品的机器。这些产品的一部分被机器拒绝。现在,如果机器操作员更改某些检查设置,我想向他/她显示估计的废品率,以及一些有关当前估计的可靠性的提示。 因此,我认为我将实际拒绝率视为随机变量X,并根据拒绝对象N和接受对象M的数量计算该随机变量的概率分布。如果我假设X的先验分布均匀,则这是一个beta分布取决于N和M。我可以直接向用户显示此分布,也可以找到一个区间[l,r],以便实际拒绝率在此区间内,且p> = 0.99(使用shabbychef的术语)并显示间隔。对于较小的M,N(即,在参数更改之后),我可以直接计算分布并近似间隔[l,r]。但是对于大的M,N,这种简单的方法会导致下溢错误,因为x ^ N *(1-x)^ M很小,可以表示为双精度浮点数。 我猜我最好的选择是对小M,N使用朴素的beta分布,并在M,N超过某个阈值后立即切换为具有相同均值和方差的正态分布。那有意义吗?

1
处理异常有限的响应变量的回归
我正在尝试对理论上限制在-225和+225之间的响应变量进行建模。变量是受试者在玩游戏时获得的总分。尽管从理论上讲,受试者有可能得分+225。尽管如此,这是因为得分不仅取决于对象的动作,而且还取决于其他动作的动作,任何人得分最多为125(这是两个互相玩的最高玩家都可以得分),这种情况的发生频率很高。最低分数是+35。 125的边界导致线性回归困难。我唯一想做的就是将响应重新缩放为0到1之间并使用beta回归。如果我这样做,虽然不确定,我真的可以说125是最高边界(或转换后的1),因为它有可能得分+225。此外,如果我这样做了,我的下界35是什么? 谢谢, 乔纳森

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.