10 Logit和Probit模型之间的区别 Logit和Probit模型有什么区别? 我对了解何时使用逻辑回归以及何时使用Probit更感兴趣。 如果有任何文献使用R对其进行定义,那也将有所帮助。 299 r generalized-linear-model logistic probit link-function
4 用于计数回归的诊断图 在结果是计数变量的情况下,您发现哪些诊断图(也许是形式测试)对回归分析最有帮助? 我对泊松模型和负二项式模型以及每种模型的零膨胀和跨栏模型特别感兴趣。我发现的大多数资源都只是将残差与拟合值作图,而没有讨论这些图“应该”是什么样。 智慧和参考非常感谢。关于我为什么要问这个问题(如果相关)的背景故事是我的另一个问题。 相关讨论: 解释glm模型的残留诊断图? 广义线性模型的假设 GLM-诊断和哪个系列 88 generalized-linear-model residuals negative-binomial zero-inflation poisson-regression
4 何时使用伽马GLM? 伽马分布可以采用多种形式,并且通过其两个参数给出了均值和方差之间的联系,它似乎适合处理非负数据中的异方差,这使得对数转换的OLS可以没有WLS或某种异方差一致的VCV估计器就无法做到。 在常规的非负数据建模中,我会更多地使用它,但是我不认识其他使用它的人,我还没有在正式的课堂环境中学习它,而我阅读的文献也从未使用过它。每当我使用诸如“伽马GLM的实际使用”之类的Google字词时,我都会提出建议将其用于Poisson事件之间的等待时间。好。但这似乎是限制性的,并且不能唯一使用。 天真的,考虑到伽玛的灵活性,伽玛GLM似乎是对非负数据建模的一种相对假设的轻松手段。当然,您需要像任何模型一样检查QQ图和残差图。但是我有什么严重的缺点想念吗?除了与“仅运行OLS”的人进行交流之外? 88 generalized-linear-model gamma-distribution
3 示例:使用glmnet获得二进制结果的LASSO回归 我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, … 77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold
5 什么是逐步回归的现代易用替代方法? 我有一个包含约30个独立变量的数据集,并希望构建一个广义线性模型(GLM)来探索它们与因变量之间的关系。 我知道,我在这种情况下所教的方法,逐步回归,现在被认为是统计上的罪过。 在这种情况下应使用哪些现代的模型选择方法? 76 regression generalized-linear-model model-selection stepwise-regression
4 GLM的“链接功能”和“规范链接功能”有什么区别 术语“链接功能”和“规范链接功能”有什么区别?另外,使用一个相对于另一个有什么(理论上的)优势? 例如,可以使用许多链接函数(例如logit,probit等)对二进制响应变量进行建模。但是,这里的logit被视为“规范”链接函数。 65 logistic generalized-linear-model link-function
1 如何解释泊松回归中的系数? 我如何解释泊松回归中的主要影响(虚拟编码因子的系数)? 假设以下示例: treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- rpois(84, 5) … 64 r generalized-linear-model interpretation poisson-distribution regression-coefficients
3 逻辑回归中的残差是什么意思? 在回答这个问题时,约翰·克里斯蒂(John Christie)建议通过评估残差来评估逻辑回归模型的拟合度。我熟悉如何解释OLS中的残差,它们与DV具有相同的比例,并且非常清楚地知道y与模型预测的y之间的差异。但是对于逻辑回归,过去我通常只检查模型拟合的估计值,例如AIC,因为我不确定残差对逻辑回归意味着什么。在稍微看一下R的帮助文件后,我发现R中有五种类型的glm残差可用c("deviance", "pearson", "working","response", "partial")。帮助文件是指: Davison,AC和Snell,EJ(1991)残留和诊断。在:统计理论与建模。为了纪念David Cox爵士,FRS编辑。欣克利,DV,里德,N。和斯内尔,EJ,查普曼和霍尔。 我没有那个副本。是否有简短的方法来描述如何解释这些类型中的每一种?在逻辑条件下,残差平方和会提供一种有意义的模型拟合度量,还是采用信息准则会更好? 62 r logistic generalized-linear-model residuals aic
1 为什么建议对计数数据使用平方根变换? 当您拥有计数数据时,通常建议取平方根。(有关简历一些例子,看看@ HarveyMotulsky的答案在这里,或@ whuber的答案在这里。)另外,装修与分布泊松响应变量广义线性模型时,日志是规范链接。这有点像对响应数据进行对数转换(尽管更准确地说,是对控制响应分布的参数进行对数转换)。因此,这两者之间存在某种张力。 λλ\lambda 您如何调和这种(明显的)差异? 为什么平方根比对数好? 57 generalized-linear-model data-transformation poisson-distribution count-data variance-stabilizing
4 在LM和GLM之间选择对数转换后的响应变量 我试图了解使用广义线性模型(GLM)与线性模型(LM)的原理。我在下面创建了一个示例数据集: 日志(y)= x + εlog(y)=x+ε\log(y) = x + \varepsilon 该示例的误差不随y的大小而变化,因此我假设对数转换的y的线性模型是最好的。在下面的示例中,确实是这种情况(我认为)-因为LM在对数转换后的数据上的AIC最低。具有对数链接功能的Gamma分布GLM的AIC具有较低的平方和(SS),但是附加的自由度会导致AIC稍高。我惊讶于高斯分布AIC如此之高(即使SS是模型中最低的)。εε\varepsilonÿyy 我希望就何时应该使用GLM模型获得一些建议-即我应该在LM模型拟合残差中寻找一些东西来告诉我另一种分布更合适吗?另外,应该如何选择合适的分销家庭。 在此先感谢您的帮助。 [编辑]:我现在调整了摘要统计信息,以便对数转换后的线性模型的SS与具有对数链接功能的GLM模型相当。现在显示统计图。 例 set.seed(1111) n <- 1000 y <- rnorm(n, mean=0, sd=1) y <- exp(y) hist(y, n=20) hist(log(y), n=20) x <- log(y) - rnorm(n, mean=0, sd=1) hist(x, n=20) df <- data.frame(y=y, x=x) df2 <- data.frame(x=seq(from=min(df$x), to=max(df$x),,100)) #models mod.name <- … 55 r generalized-linear-model linear-model gamma-distribution link-function
9 高级统计书籍推荐 该站点上有多个线程可提供有关入门统计和机器学习的书籍建议,但我正在寻找有关高级统计的文章,其中包括按优先级排列的顺序:最大似然,广义线性模型,主成分分析,非线性模型。我已经尝试过AC Davison的统计模型,但是坦率地说,我不得不在2章之后将其放下。本书内容涵盖了百科全书和数学知识,但是作为一名从业者,我喜欢通过首先了解直觉来接近学科,然后再深入研究数学背景。 这些是一些我认为具有教学价值的文章。我想为我提到的更高级的科目找到同等的科目。 统计,D。Freedman,R。Pisani,R。Purves。 预测:方法与应用,R。Hyndman等。 多元回归与超越,TZ基思 Rand R. Wilcox,《应用当代统计技术》 R语言中的统计学习及其应用简介(已发布PDF版本),Gareth James,Daniela Witten,Trevor Hastie和Robert Tibshirani 统计学习的要素:数据挖掘,推理和预测。-(PDF发布版本),哈斯提,蒂布希拉尼和弗里德曼(2009) 55 generalized-linear-model pca maximum-likelihood references saddlepoint-approximation
1 从逻辑回归模型拟合中获得预测值(Y = 1或0) 假设我有一个类的对象glm(对应于逻辑回归模型),并且我想将predict.glm使用参数提供的预测概率type="response"转换为二进制响应,即或。在R中最快,最规范的方法是什么?Y=1Y=1Y=1Y=0Y=0Y=0 再次,虽然我知道了predict.glm,但我不知道截止值确切 -我想这是我这里的主要绊脚石。P(Yi=1|X^i)P(Yi=1|X^i)P(Y_i=1|\hat X_{i}) 50 r generalized-linear-model logistic
4 回归,t检验和方差分析如何显示一般线性模型的所有版本? 它们如何都是同一基本统计方法的所有版本? 49 regression self-study anova generalized-linear-model t-test
2 解释GLM R中的残差和零偏差 如何在R中解释GLM中的零位和残差?就像,我们说较小的AIC更好。对偏离者也有任何相似和快速的解释吗? 零偏差:1077自由度上为1146.1残余偏差:1099自由度上为4589.4 AIC:11089 47 generalized-linear-model deviance
3 具有对数转换响应的线性模型与带对数链接的广义线性模型 在这篇题为“适用于医学数据的广义线性模型之间的选择”的论文中,作者写道: 在广义线性模型中,均值是通过链接函数转换的,而不是转换响应本身的。两种转换方法可能导致完全不同的结果。例如, 对数转换后的响应的平均值与均值响应的对数不同。通常,前者不能轻易转化为平均反应。因此,转换均值通常可以更容易地解释结果,特别是在均值参数与测量响应保持相同范围的情况下。 他们似乎建议使用带有对数链接的广义线性模型(GLM)代替具有对数转换响应的线性模型(LM)。我不了解这种方法的优势,对我来说似乎很不寻常。 我的响应变量看起来呈对数正态分布。无论采用哪种方法,在系数及其标准误差方面,我都得到类似的结果。 不过我在想:如果一个变量具有对数正态分布,不是平均的对数变换变量最好在日志的平均未转换的变量,作为均值是正态分布的自然总结和日志-transformed变量是正态分布的,而变量本身不是吗? 46 generalized-linear-model model-selection lognormal