Questions tagged «beta-regression»

Beta回归在因变量有界或有上限或下限影响时很有用。它还可以用于对均值和方差建模。

3
结果(比率或分数)在0到1之间的回归
我正在考虑建立一个预测比率的模型,其中和且。因此,该比率将在和之间。一个≤ b 一> 0 b > 0 0 1a/ba/ba/ba≤ba≤ba \le ba>0a>0a > 0b>0b>0b > 0000111 我可以使用线性回归,尽管它自然不限于0.1。我没有理由相信这种关系是线性的,但是无论如何,它当然经常被用作简单的第一个模型。 我可以使用逻辑回归,尽管通常将其用于预测两态结果的概率,而不是从0.1.1范围内预测连续值。 一无所知,您将使用线性回归,逻辑回归还是隐藏选项c?

3
为什么不将Beta / Dirichlet回归视为广义线性模型?
前提是来自R封装betareg1小插图的报价。 此外,该模型与广义线性模型(GLM; McCullagh and Nelder 1989)具有一些共同的属性(例如线性预测变量,链接函数,色散参数),但这不是该框架的特殊情况(即使对于固定色散也不是) ) 这个答案也暗示了这一事实: [...]这是一种回归模型,当响应变量以Beta形式分发时适用。您可以将其视为 类似于广义线性模型。这正是您正在寻找的(重点是我的) 问题标题说明了一切:为什么不将Beta / Dirichlet回归视为广义线性模型(不是)? 据我所知,广义线性模型定义的模型建立在对期望变量的期望之上,这些期望变量以独立变量为条件。 fff是链接函数的期望映射,ggg是概率分布,YYY结果和XXX的predictiors,ββ\beta是线性参数和σ2σ2\sigma^2的方差。 f(E(Y∣X))∼g(βX,Iσ2)f(E(Y∣X))∼g(βX,Iσ2)f\left(\mathbb E\left(Y\mid X\right)\right) \sim g(\beta X, I\sigma^2) 不同的GLM会强加(或放宽)均值和方差之间的关系,但是必须是指数族中的概率分布,这是一种理想的属性,如果我没有记错的话,应该可以提高估计的鲁棒性。但是,Beta和Dirichlet分布是指数族的一部分,所以我没有主意。ggg [1] Cribari-Neto,F.和Zeileis,A.(2009)。R中的Beta回归。

4
在beta回归中处理0.1值
我在[0,1]中有一些数据,希望通过beta回归进行分析。当然,需要做一些事情来容纳0,1值。我不喜欢修改数据以适合模型。我也不认为通货膨胀为零和1是个好主意,因为我认为在这种情况下,应将0视为很小的正值(但我不想确切地说出什么值是合适的。一个合理的选择我相信应该选择.001和.999这样的较小值,并使用beta的累积距离来拟合模型,因此对于观测值y_i,对数似然度LL_i应该为 if y_i < .001 LL+=log(cumd_beta(.001)) else if y_i>.999 LL+=log(1.0-cum_beta(.999)) else LL+=log(beta_density(y_i)) 我喜欢这个模型的地方在于,如果beta回归模型有效,那么该模型也是有效的,但是它消除了对极值的敏感性。但是,这似乎是一种自然的方法,我想知道为什么我在文献中找不到任何明显的参考文献。所以我的问题是不是修改数据,而不是修改模型。修改数据会使结果产生偏差(基于原始模型有效的假设),而通过对极值进行装仓来修改模型不会使结果产生偏差。 也许有一个我忽略的问题?

5
Beta回归比例数据,包括1和0
我正在尝试生成一个模型,该模型的响应变量的比例在0和1之间,其中包括相当多的0和1,但也有介于两者之间的许多值。我正在考虑尝试beta回归。我为R(betareg)找到的程序包只允许0到1之间的值,但不包括0或1。我在其他地方读过,从理论上讲,β分布应该能够处理0或1的值,但是我不知道如何在RI中处理此问题,因为看到有人将0.001加到零并从中取0.001,但是我不是确定这是个好主意? 或者,我可以logit变换响应变量并使用线性回归。在这种情况下,我有0和1的相同问题,无法对它们进行日志转换。

2
为什么beta回归不能在响应变量中正确处理0和1?
通常建议使用beta回归(即具有beta分布的GLM,通常是logit链接函数)来处理响应aka因变量,其取值介于0和1之间,例如分数,比率或概率:结果的回归(比率或分数)在0和1之间。 但是,总是声称一旦响应变量至少等于0或1,就不能使用beta回归。如果是这样,则需要使用零/一膨胀的beta模型,或者对响应进行某种转换,等等。:Beta回归比例数据,包括1和0。 我的问题是:β分布的哪个属性阻止β回归处理精确的0和1,为什么? 我猜这是和不支持beta发行版的原因。但是对于所有形状参数和,零和一个都支持beta分布,只有较小的形状参数的分布在一侧或两侧达到无穷大。也许样本数据使得提供最佳拟合的和都将大于。000111α>1α>1\alpha>1β>1β>1\beta>1αα\alphaββ\beta111 这是否意味着在某些情况下,即使使用零/ 一,实际上也可以使用beta回归吗? 当然,即使0和1支持beta分布,准确观察0或1的概率也为零。但是观察其他给定可计数值集合的可能性也是如此,所以这不是问题吗?(参见@Glen_b的评论)。 \hskip{8em} 在beta回归的上下文中,beta分布的参数设置不同,但是对于,对于所有,仍应在进行明确定义。ϕ=α+β>2ϕ=α+β>2\phi=\alpha+\beta>2[0,1][0,1][0,1]μμ\mu

2
为什么要在beta回归中使用logit链接?
最近,我对实现beta回归模型感兴趣,其结果是成比例的。请注意,此结果将不适合二项式上下文,因为在此上下文中没有有意义的离散“成功”概念。实际上,结果实际上是持续时间的一部分。分子是某个条件处于活动状态时的秒数,在该条件有资格处于活动状态的总秒数。我为这些变化感到抱歉,但我不想过多地关注这个精确的上下文,因为我意识到,除了beta回归外,还有多种方法可以对这种过程进行建模,而现在我对理论更加感兴趣我在尝试实施这种模型时遇到的问题(尽管我当然是, 无论如何,我能够找到的所有资源都表明,使用logit(或probit / cloglog)链接通常适合使用beta回归,并且将参数解释为对数奇数。但是,我还没有找到一个引用,该引用实际上提供了为什么要使用此链接的任何真实理由。 Ferrari&Cribari-Neto(2004)的原始论文没有提供依据。他们仅注意到logit函数“特别有用”,这是因为对指数参数进行了比值比解释。其他来源则暗示了从区间(0,1)到实线的映射的愿望。但是,考虑到我们已经假设了beta分布,我们是否一定需要链接函数来进行这种映射?链接功能除了假设开始使用beta分布所施加的约束之外,还能提供什么好处?我已经进行了几次快速模拟,即使使用概率分布很大程度上集中在0或1附近的beta分布进行模拟,也没有看到具有(identity)链接的(0,1)区间之外的预测。还不够全面,无法捕捉到某些病理。 在我看来,基于个人在实践中如何根据Beta回归模型(即,比值比)解释参数估计值,即他们隐含地推断出“成功”的几率;也就是说,他们正在使用Beta回归代替二项式模型。考虑到beta和二项式分布之间的关系,这也许在某些情况下是适当的,但是在我看来,这应该是比一般情况更特殊的情况。在这个问题中,提供了一个答案来解释相对于连续比例而不是结果的优势比,但是在我看来,尝试以这种方式解释事物比使用日志等不必要的麻烦或身份链接,并解释百分比变化或单位偏移。 那么,为什么我们将logit链接用于beta回归模型?仅仅是为了方便起见,将其与二项式模型相关联?

3
如何在R中使用betareg函数实现混合模型?
我有一个数据集,其中包含一些比例,这些比例用于测量个体t的“活动水平”,因此使值介于0和1之间。该数据是通过计算个体在特定时间间隔内移动的次数(移动为1, 0(表示不移动),然后取平均值以为每个人创建一个值。我的主要固定效果是“密度水平”。 我面临的问题是,我有一个因子变量“ pond”,我想将其作为随机效应包括在内-我不在乎池塘之间的差异,但希望从统计角度考虑它们。关于池塘的重要一点是,我只有3个,而且我了解在处理随机效应时理想的是具有更多的因子水平(5+)。 如果可能的话,我希望获得一些有关如何使用R betareg()或betamix()在R中实现混合模型的建议。我已经阅读了R帮助文件,但是我通常很难理解它们(每个参数在上下文中的真正含义是什么)我自己的数据以及输出值对生态意义的含义),因此我倾向于通过示例更好地工作。 在相关的说明中,我想知道是否可以代替使用glm()二项式族和logit链接来解决此类数据的随机影响。

3
线性回归中误差的方差-协方差矩阵
实际上,统计分析软件包如何计算var / cov误差矩阵? 从理论上我很清楚这个想法。但实际上没有。我的意思是,如果我有一个随机变量向量,我知道方差/协方差矩阵将得到均值偏差向量的外部乘积:。ΣX =( X1个,X2,… ,Xñ)⊤X=(X1,X2,…,Xn)⊤\textbf{X}=(X_{1}, X_{2}, \ldots, X_{n})^\topΣΣ\SigmaΣ = E [(X - E(X))(X - E(X))⊤]Σ=E[(X−E(X))(X−E(X))⊤]\Sigma=\mathrm{E}\left[(\textbf{X}-\mathrm{E}(\textbf{X}))(\textbf{X}-\mathrm{E}(\textbf{X}))^\top\right] 但是当我有一个样本时,我观察到的误差不是随机变量。甚至更好,但只有在我从相同人群中抽取了多个相同样本的情况下才可以。否则,他们被给予。因此,我的问题再次是:一个统计软件包如何从研究人员提供的观察结果列表(即样本)开始生成var / cov矩阵?

1
处理异常有限的响应变量的回归
我正在尝试对理论上限制在-225和+225之间的响应变量进行建模。变量是受试者在玩游戏时获得的总分。尽管从理论上讲,受试者有可能得分+225。尽管如此,这是因为得分不仅取决于对象的动作,而且还取决于其他动作的动作,任何人得分最多为125(这是两个互相玩的最高玩家都可以得分),这种情况的发生频率很高。最低分数是+35。 125的边界导致线性回归困难。我唯一想做的就是将响应重新缩放为0到1之间并使用beta回归。如果我这样做,虽然不确定,我真的可以说125是最高边界(或转换后的1),因为它有可能得分+225。此外,如果我这样做了,我的下界35是什么? 谢谢, 乔纳森

2
如何使用BUGS / JAGS / STAN为比例建模?
我正在尝试建立一个模型,其中回应是一个比例(实际上是政党在选区中获得的选票份额)。它的分布不正常,因此我决定使用beta分布对其进行建模。我也有几个预测指标。 但是,我不知道如何用BUGS / JAGS / STAN编写它(JAGS是我最好的选择,但这并不重要)。我的问题是我通过预测变量对参数求和,但是该怎么办呢? 代码将是这样的(使用JAGS语法),但是我不知道如何“链接” y_hat和y参数。 for (i in 1:n) { y[i] ~ dbeta(alpha, beta) y_hat[i] <- a + b * x[i] } (y_hat只是参数和预测变量的乘积,因此是确定性关系。a并且b是我试图估计的系数,x作为预测变量)。 感谢您的建议!

2
什么是预测受(0,1)约束的百分比的时间序列模型?
这必定会发生-预测介于0和1之间的事物。 在我的系列文章中,我怀疑有一个自动回归的成分,也有一个均值回归的成分,所以我希望我可以像ARIMA那样解释一些东西,但是我不希望它将来会飙升到1000% 。 您是否仅将ARIMA模型用作逻辑回归中的参数以将结果限制在0和1之间? 或者我在这里了解到Beta回归更适合(0,1)数据。我如何将其应用于时间序列?是否有好的R软件包或Matlab函数使拟合和预测变得容易?

1
二项式条件下未来成功比例的预测间隔
假设我拟合了二项式回归并获得了点估计和回归系数的方差-协方差矩阵。这样一来,我就可以为将来的实验的预期成功比例获得CI ,但是我需要为观察到的比例获得CI。已经发布了一些相关的答案,包括模拟(假设我不想这样做)和指向Krishnamoorthya等人的链接(并不能完全回答我的问题)。ppp 我的推理如下:如果仅使用二项式模型,则不得不假定是从正态分布中采样的(具有相应的Wald CI),因此不可能以封闭形式获得观察比例的CI。如果我们假设p是从beta分布中采样的,那么事情就容易多了,因为成功次数将遵循Beta-Binomial分布。我们将不得不假设估计的beta参数α和β没有不确定性ppppppαα\alphaββ\beta。 有三个问题: 1)理论上:仅使用beta参数的点估计值可以吗?我知道在多元线性回归中构造CI以便将来观察 ÿ= x′β+ ε ,ε 〜Ñ(0 ,σ2)ÿ=X′β+ϵ,ϵ〜ñ(0,σ2)Y = x'\beta + \epsilon, \epsilon \sim N(0, \sigma^2) 他们这样做的WRT误差项方差,。我把它(如果我错了纠正我)的理由是,在实践中σ 2估计比回归系数远远更高的精度,我们不会得到太多的试图将不确定性σ 2。类似的理由适用于估计的beta参数α和β吗?σ2σ2\sigma^2σ2σ2\sigma^2σ2σ2\sigma^2αα\alphaββ\beta 2)哪种软件包更好(R:gamlss-bb,betareg,odd ?;我也可以使用SAS)。 3)给定估计的beta参数,是否有(近似)捷径来获得未来成功计数的分位数(2.5%,97.5%),或者更好的是,根据Beta-Binomial分布获得未来成功的比例。

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.