Questions tagged «link-function»

控制响应分布的参数的变换,该变换用作广义线性模型的关键部分,以将该参数的范围(例如,可以从0到1,或者仅是正值)映射到实数线 (,+)



4
在LM和GLM之间选择对数转换后的响应变量
我试图了解使用广义线性模型(GLM)与线性模型(LM)的原理。我在下面创建了一个示例数据集: 日志(y)= x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon 该示例的误差不随y的大小而变化,因此我假设对数转换的y的线性模型是最好的。在下面的示例中,确实是这种情况(我认为)-因为LM在对数转换后的数据上的AIC最低。具有对数链接功能的Gamma分布GLM的AIC具有较低的平方和(SS),但是附加的自由度会导致AIC稍高。我惊讶于高斯分布AIC如此之高(即使SS是模型中最低的)。εε\varepsilonÿyy 我希望就何时应该使用GLM模型获得一些建议-即我应该在LM模型拟合残差中寻找一些东西来告诉我另一种分布更合适吗?另外,应该如何选择合适的分销家庭。 在此先感谢您的帮助。 [编辑]:我现在调整了摘要统计信息,以便对数转换后的线性模型的SS与具有对数链接功能的GLM模型相当。现在显示统计图。 例 set.seed(1111) n <- 1000 y <- rnorm(n, mean=0, sd=1) y <- exp(y) hist(y, n=20) hist(log(y), n=20) x <- log(y) - rnorm(n, mean=0, sd=1) hist(x, n=20) df <- data.frame(y=y, x=x) df2 <- data.frame(x=seq(from=min(df$x), to=max(df$x),,100)) #models mod.name <- …


1
非线性模型与广义线性模型:您如何指代逻辑回归,泊松等回归?
我有一个关于语义的问题,我希望统计学家能对此发表看法。 我们知道诸如logistic,泊松等模型属于广义线性模型。该模型包括参数的非线性函数,然后可以使用适当的链接函数,使用线性模型框架对其进行建模。 我想知道您是否考虑(教?)诸如逻辑回归这样的情况: 非线性模型,给定参数的形式 线性模型,因为链接将我们转换为线性模型框架 同时(1)和(2):“开始”为一个非线性模型,但可以这样一种方式使用,使我们可以将其视为线性模型 希望我可以进行一次实际的民意测验...

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

5
统计人员是否假设不能为植物浇水,还是我使用错误的搜索词进行曲线回归?
几乎所有我读到线性回归和GLM归结为:y=f(x,β)y=f(x,β)y = f(x,\beta),其中是一个非增或非递减的函数和是你估计参数并检验假设。有数十种链接函数以及和转换,以使成为的线性函数f(x,β)f(x,β)f(x,\beta)xxxββ\betayyyxxxyyyf(x,β)f(x,β)f(x,\beta)。 现在,如果删除的非递增/非递减要求f(x,β)f(x,β)f(x,\beta),则我仅知道两个用于拟合参数化线性化模型的选择:trig函数和多项式。两者都会在每个预测的yyy与整个集合之间造成人为的依赖性XXX,因此使其非常不稳健,除非事先有理由认为您的数据实际上是由循环或多项式过程生成的。 这不是某种神秘的边缘情况。这是水与农作物产量之间的实际常识关系(一旦田间水深足够,农作物产量将开始减少),或者是早餐时消耗的卡路里与数学测验表现之间的热量,或工厂工人的数量之间的常识关系。以及它们产生的小部件数量...简而言之,几乎在任何使用线性模型的现实生活中,数据覆盖的范围都足够大,您可以避免收益递减成负收益。 我尝试查找“凹”,“凸”,“曲线”,“非单调”,“浴缸”等术语,但我忘记了其他几个。很少有相关问题,甚至更少可用的答案。因此,实际上,如果您具有以下数据(R代码,y是连续变量x和离散变量组的函数): updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53), x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23), group=factor(rep(c('A','B'),c(81,110)))); plot(y~x,updown,subset=x<500,col=group); 您可能首先尝试进行Box-Cox转换,看看它是否具有机械意义,否则,您可能会使用具有逻辑或渐近链接函数的非线性最小二乘模型进行拟合。 因此,当您发现完整的数据集看起来像这样时,为什么要完全放弃参数模型而又回到样条线这样的黑盒方法... plot(y~x,updown,col=group); 我的问题是: 为了找到代表此类功能关系的链接功能,我应该搜索哪些术语? 要么 为了教自己如何设计链接函数到此类函数关系或扩展当前仅用于单调响应的现有函数,我应该阅读和/或搜索什么? 要么 哎呀,甚至什么StackExchange标签最适合此类问题!

3
如何决定使用哪个glm家庭?
我有一些鱼密度数据,我试图在几种不同的采集技术之间进行比较,该数据有很多零,并且直方图看上去像是适合泊松分布的vaugley,除了密度以外,它不是整数数据。我对GLM相对陌生,最近几天一直在网上寻找如何确定使用哪个发行版,但是在寻找任何有助于做出此决定的资源方面完全失败了。数据的直方图示例如下所示: 我不知道如何决定要为GLM使用的合适家庭。如果有人有任何建议或可以给我资源,我应该检查一下,那就太好了。

4
logit函数是否始终是二进制数据回归建模的最佳选择?
我一直在考虑这个问题。用于模拟二进制数据的常用逻辑函数为: 然而,logit函数是S形曲线,始终是建模数据的最佳选择?也许您有理由相信您的数据不遵循正常的S形曲线,而是具有域的另一种类型的曲线。log(p1−p)=β0+β1X1+β2X2+…log⁡(p1−p)=β0+β1X1+β2X2+… \log\left(\frac{p}{1-p}\right)=\beta_0+\beta_1X_1+\beta_2X_2+\ldots (0,1)(0,1)(0,1) 是否对此有任何研究?也许您可以将其建模为Probit函数或类似的函数,但是如果它完全是其他函数呢?这样可以更好地估计效果吗?只是我的想法,我想知道是否对此有任何研究。

2
GLM:验证分发和链接功能的选择
我有一个采用高斯分布和对数链接函数的广义线性模型。拟合模型后,我检查残差:QQ图,残差与预测值,残差的直方图(确认需要格外小心)。一切看起来都很好。(对我而言)这似乎表明,选择高斯分布非常合理。或者至少,残差与我在模型中使用的分布一致。 问题1:声明它能验证我的发行选择是否太过分了? 我选择了一个日志链接函数,因为我的响应变量始终为正,但是我想要某种确认,它是一个不错的选择。 问题2:是否有任何测试可以支持我对链接功能的选择,例如检查残差以选择分布?(对我来说,选择链接功能似乎有些武断,因为我可以找到的唯一指导是非常模糊和动摇的,大概是出于充分的理由。)

1
您可以简单地对IRLS方法进行直观的解释,以找到GLM的MLE吗?
背景: 我正在尝试遵循普林斯顿对GLM的MLE估计的评论。 我明白MLE估计的基础:likelihood,score,观察和期望Fisher information与Fisher scoring技术。而且我知道如何用MLE估计来证明简单的线性回归。 问题: 我什至不了解这种方法的第一行:( 工作变量定义为以下内容的直觉是什么:ž一世ziz_i ž一世= η^一世+ (y一世- μ^一世)dη一世dμ一世zi=η^i+(yi−μ^i)dηidμi z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i} 为什么用它们代替来估计β?ÿ一世yiy_iββ\beta 它们与的关系response/link function是和μ之间的关系ηη\etaμμ\mu 如果有人有一个简单的解释,或者可以指导我获得更基本的说明,我将不胜感激。

2
泊松回归的Log Link和Identity Link的优缺点
我执行泊松回归与比较(和采取的差)在我的模型中的两个因子水平的预测均值计数的最终目标 ,而持有其他模型协变量(这些都是二进制) 不变。我想知道是否有人可以提供有关何时使用日志链接和身份链接的实用建议。考虑到我比较差异的目标,这两个不同链接函数在Poisson回归中的利弊是什么?μ^1个- μ^2μ^1−μ^2\hat{\mu}_1-\hat{\mu}_2 对于Logistic /二项式回归(使用Logit链接或Identity链接)以比较两个因子水平之间的比例差异,我也有相同的目标,需要类似的建议。我读过一些有关此问题的文章,但似乎没有人解释为什么或何时选择一个链接而不是另一个链接,以及优点/缺点。在此先感谢您的帮助! 更新: 我还意识到使用某些链接函数的主要目的是将可能的预测值的范围限制在平均响应范围内(例如,对于逻辑,该范围限制在0到1之间,对于对数链接,则将预测限制为正数)。因此,我想问的是,如果我使用身份链接进行逻辑/二项式回归,而我的结果在(0,1)范围内,是否真的需要使用逻辑链接功能或我可以简单地考虑使用身份链接吗?


1
GLM中规范链接函数的计算
我认为规范链接函数来自指数族的自然参数。说,考虑族 则是规范的链接函数。以伯努利分布为例,我们有 因此,规范链接函数g(⋅)g(⋅)g(\cdot)f(y,θ,ψ)=exp{yθ−b(θ)a(ψ)−c(y,ψ)}f(y,θ,ψ)=exp⁡{yθ−b(θ)a(ψ)−c(y,ψ)} f(y,\theta,\psi)=\exp\left\{\frac{y\theta-b(\theta)}{a(\psi)}-c(y,\psi)\right\} θ=θ(μ)θ=θ(μ)\theta=\theta(\mu)P(Y=y)=μy(1−μ)1−y=exp{ylogμ1−μ+log(1−μ)}P(Y=y)=μy(1−μ)1−y=exp⁡{ylog⁡μ1−μ+log⁡(1−μ)} P(Y=y)=\mu^{y}(1-\mu)^{1-y}=\exp\left\{y\log\frac{\mu}{1-\mu}+\log{(1-\mu)}\right\} g(μ)=logμ1−μg(μ)=log⁡μ1−μg(\mu)=\log\frac{\mu}{1-\mu} 但是,当我看到这张幻灯片时,它声称 尽管可以很容易地针对此特定分布(以及其他一些分布,例如泊松分布)进行验证,我看不到一般情况的等效性。谁能给出提示?谢谢〜g′(μ)=1V(μ)g′(μ)=1V(μ) g'(\mu)=\frac{1}{V(\mu)}

3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.