Questions tagged «generalized-linear-model»

线性回归的一般化允许通过“链接函数”建立非线性关系,并且响应的方差取决于预测值。(不要与“普通线性模型”混淆,后者将普通线性模型扩展到普通协方差结构和多元响应。)



4
如何将迭代加权最小二乘(IRLS)方法应用于LASSO模型?
我已经使用IRLS算法对逻辑回归进行了编程。我想对LASSO进行处罚,以便自动选择正确的功能。在每次迭代中,解决了以下问题: (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} 令为非负实数。我没有按照《The Elements of》中的建议对拦截进行处罚。统计学习。同为零的系数。否则,我从右边减去一个术语:λλ\lambda XT(y−p)−λ×sign(β^)XT(y−p)−λ×sign(β^)\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)} 但是,我不确定IRLS算法的修改。这是正确的方法吗? 编辑:尽管我对此并不自信,但这是我最终想出的解决方案之一。有趣的是,此解决方案与我现在对LASSO的了解相对应。实际上,每次迭代有两个步骤,而不仅仅是一个步骤: 第一步与之前相同:我们对该算法进行迭代(就像上面梯度的公式中),λ=0λ=0\lambda=0 第二步是新步骤:我们对第一步获得的向量每个分量(分量,它对应于截距)应用一个软阈值。这称为迭代软阈值算法。 ββ0β0\beta_0ββ\beta ∀i≥1,βi←sign(βi)×max(0,|βi|−λ)∀i≥1,βi←sign(βi)×max(0,|βi|−λ)\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)

2
可以使用Poisson,Gamma或Tweedie分布作为错误分布族来评估Python / scikit-learn中的GLM吗?
试图学习一些Python和Sklearn,但是对于我的工作,我需要运行回归,使用Poisson,Gamma尤其是Tweedie系列的误差分布。 我没有在文档中看到关于它们的任何内容,但是它们在R发行版的几个部分中,因此我想知道是否有人在任何地方看到了Python的实现。如果您可以将我引向Tweedie发行版的SGD实现,那就太酷了!

1
逻辑回归模型操纵
我想了解以下代码在做什么。编写代码的人不再在这里工作,并且几乎完全没有文档记录。有人认为“ 这是贝叶斯逻辑回归模型 ” ,有人要求我进行调查 bglm <- function(Y,X) { # Y is a vector of binary responses # X is a design matrix fit <- glm.fit(X,Y, family = binomial(link = logit)) beta <- coef(fit) fs <- summary.glm(fit) M <- t(chol(fs$cov.unscaled)) betastar <- beta + M %*% rnorm(ncol(M)) p <- 1/(1 + …

4
在这种情况下,泊松回归与线性回归相比有什么优势?
我获得了一个数据集,其中包含一所高中学生获得的奖励数量,其中预测的奖励数量包括该学生注册的课程类型以及他们的数学期末考试成绩。 我想知道是否有人可以告诉我为什么线性回归模型在这种情况下可能不合适,以及为什么使用泊松回归会更好?谢谢。

1
使用最小二乘法与广义线性模型与非线性最小二乘拟合指数函数
我有一个代表指数衰减的数据集。我想对这个数据拟合指数函数。我尝试对数转换响应变量,然后使用最小二乘法拟合一条线。使用具有对数链接函数和响应变量周围的伽马分布的广义线性模型;并使用非线性最小二乘法。尽管每种方法的两个系数都相似,但我得到的答案不同。我感到困惑的地方是我不确定哪种方法最适合使用以及为什么使用。有人可以比较和对比这些方法吗?谢谢。y=Beaxy=Beaxy = Be^{ax}


1
GLM中规范链接函数的计算
我认为规范链接函数来自指数族的自然参数。说,考虑族 则是规范的链接函数。以伯努利分布为例,我们有 因此,规范链接函数g(⋅)g(⋅)g(\cdot)f(y,θ,ψ)=exp{yθ−b(θ)a(ψ)−c(y,ψ)}f(y,θ,ψ)=exp⁡{yθ−b(θ)a(ψ)−c(y,ψ)} f(y,\theta,\psi)=\exp\left\{\frac{y\theta-b(\theta)}{a(\psi)}-c(y,\psi)\right\} θ=θ(μ)θ=θ(μ)\theta=\theta(\mu)P(Y=y)=μy(1−μ)1−y=exp{ylogμ1−μ+log(1−μ)}P(Y=y)=μy(1−μ)1−y=exp⁡{ylog⁡μ1−μ+log⁡(1−μ)} P(Y=y)=\mu^{y}(1-\mu)^{1-y}=\exp\left\{y\log\frac{\mu}{1-\mu}+\log{(1-\mu)}\right\} g(μ)=logμ1−μg(μ)=log⁡μ1−μg(\mu)=\log\frac{\mu}{1-\mu} 但是,当我看到这张幻灯片时,它声称 尽管可以很容易地针对此特定分布(以及其他一些分布,例如泊松分布)进行验证,我看不到一般情况的等效性。谁能给出提示?谢谢〜g′(μ)=1V(μ)g′(μ)=1V(μ) g'(\mu)=\frac{1}{V(\mu)}

1
是否应使用自由度校正来推断GLM参数?
这个问题是受到马丁(Martijn)在这里的回答的启发。 假设我们为一个像二项式或泊松模型这样的单参数系列拟合了GLM,并且它是一个完全似然过程(相对于拟泊松模型)。然后,方差是平均值的函数。对于二项式:和Poisson。var [ X] = E[ X] E[ 1 - X]变种[X]=Ë[X]Ë[1个-X]\text{var}[X] = E[X]E[1-X]var [ X] = E[ X]变种[X]=Ë[X]\text{var}[X] = E[X] 与线性回归时残差呈正态分布的情况不同,这些系数的有限精确采样分布是未知的,它可能是结果和协变量的复杂组合。此外,使用GLM的均值估算值,可以用作结果方差的插件估算值。 但是,像线性回归一样,系数具有渐近正态分布,因此在有限样本推论中,我们可以用正态曲线近似其采样分布。 我的问题是:通过对有限样本中系数的样本分布使用T分布近似值,我们可以获得任何收益吗?一方面,我们知道方差,但我们不知道确切的分布,所以当引导程序或折刀估计器可以适当地解决这些差异时,T近似似乎是错误的选择。另一方面,在实践中,也许只偏爱保守的T分布。

3
我的Poisson GLM应该使用偏移量吗?
我正在进行研究,以研究使用两种不同的水下视觉普查方法时鱼类密度和鱼类物种丰富度的差异。我的数据最初是计数数据,但通常将其更改为鱼的密度,但我仍然决定使用Poisson GLM,我希望它是正确的。 model1 <- glm(g_den ~ method + site + depth, poisson) 我输入的3个预测变量是方法,位置和深度,它们是我作为因素排序的。 我的反应变量是石斑鱼物种丰富度,石斑鱼密度,其他鱼类也一样。我知道密度不是整数,而是数字数据,例如1.34849。我现在却收到此错误: In dpois(y, mu, log = TRUE) : non-integer x = 0.037500 我一直在阅读,很多人建议使用偏移量,这是最明智的选择吗?

1
GLM中有多少个分布?
我在教科书中确定了多个位置,其中用5种分布(即Gamma,Gaussian,Binomial,Inverse Gaussian和Poisson)描述了GLM。R中的族函数也对此进行了举例说明。 有时,我会遇到对GLM的引用,其中包括其他发行版(示例)。有人可以解释为什么这5个特殊或始终在GLM中出现,但有时其他情况如此吗? 根据我到目前为止的了解,指数族中的GLM分布都适合以下形式: 其中是色散参数,而是规范参数。φθf(y;θ,ϕ)=exp{yθ−b(θ)ϕ+c(y,ϕ)}f(y;θ,ϕ)=exp⁡{yθ−b(θ)ϕ+c(y,ϕ)}f(y;\theta,\phi)=\exp\left\{\frac{y\theta-b(\theta)}{\phi}+c(y,\phi)\right\}ϕϕ\phiθθ\theta 不能对任何发行版进行转换以使其适合GLM吗?

2
贝叶斯logit模型-直观的解释?
我必须承认,我以前从未在本科或研究生班上听说过该词。 Logistic回归为贝叶斯是什么意思?我正在寻找从常规物流到贝叶斯物流的过渡解释,类似于以下内容: 这是线性回归模型的方程:E(y)=β0+β1x1+...+βnxnË(ÿ)=β0+β1个X1个+。。。+βñXñE(y) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n。 这是逻辑回归模型中的方程式:。当y是绝对值时完成此操作。ln(E(y)1−E(y))=β0+β1x1+...+βnxnln⁡(Ë(ÿ)1个-Ë(ÿ))=β0+β1个X1个+。。。+βñXñ\ln(\frac{E(y)}{1-E(y)}) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n 我们要做的是将更改为。E(y)Ë(ÿ)E(y)ln(E(y)1−E(y))ln⁡(Ë(ÿ)1个-Ë(ÿ))\ln(\frac{E(y)}{1-E(y)}) 那么在贝叶斯逻辑回归中对逻辑回归模型做了什么?我猜想这与方程式无关。 这本书的预览似乎定义了,但我不太了解。这些先前的可能性是什么?是什么?有人可以用另一种方式解释本书的这一部分或贝叶斯逻辑模型吗?αα\alpha 注意:这是我之前问过的,但回答得不是很好。

1
使用null和模型偏差测试GLM模型
我已经在R中建立了一个glm模型,并已经通过一个测试和培训小组对其进行了测试,因此确信它可以很好地工作。R的结果是: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.781e+00 1.677e-02 -165.789 < 2e-16 *** Coeff_A 1.663e-05 5.438e-06 3.059 0.00222 ** log(Coeff_B) 8.925e-01 1.023e-02 87.245 < 2e-16 *** log(Coeff_C) -3.978e-01 7.695e-03 -51.689 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.