Questions tagged «gam»

广义加性模型(GAM)是广义线性模型(GLM),其中响应变量取决于某些预测变量的未知平滑函数。

4
为什么在GAM中包含纬度和经度会引起空间自相关?
我已经制作了用于毁林的广义加性模型。为了说明空间自相关,我将经度和纬度作为平滑的交互项(即s(x,y))包括在内。 我以阅读许多论文为基础,这些论文的作者说:“要考虑空间自相关,将点的坐标作为平滑项包括在内”,但是这些都从未解释过为什么会这样解释。真令人沮丧。我已经阅读了所有可以在GAM上找到的书籍,以期找到答案,但是大多数书籍(例如,通用加性模型,R的简介,SN Wood)只是在不加解释的情况下触及了该主题。 如果有人可以解释为什么将纬度和经度帐户包含在空间自相关中,以及“帐户”的真正含义,我真的很感激-将其包含在模型中是否足够简单,或者您应该将模型与s(x,y)in和没有模型?术语解释的偏差是否表示空间自相关的程度?

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
如何在GAM中包含一个互动词?
以下代码评估两个时间序列之间的相似性: set.seed(10) RandData <- rnorm(8760*2) America <- rep(c('NewYork','Miami'),each=8760) Date = seq(from=as.POSIXct("1991-01-01 00:00"), to=as.POSIXct("1991-12-31 23:00"), length=8760) DatNew <- data.frame(Loc = America, Doy = as.numeric(format(Date,format = "%j")), Tod = as.numeric(format(Date,format = "%H")), Temp = RandData, DecTime = rep(seq(1, length(RandData)/2) / (length(RandData)/2), 2)) require(mgcv) mod1 <- gam(Temp ~ Loc + s(Doy) + s(Doy,by …

2
广义加性模型-除Simon Wood之外,还有哪些人对其进行研究?
我越来越多地使用GAM。当我为它们的各个组成部分(平滑参数选择,各种样条基,平滑项的p值)提供参考时,它们都是来自英国巴斯大学的一位研究员Simon Wood。 他还是mgcvR 的维护者,R实现了他的工作。 mgcv非常复杂,但效果非常好。 肯定有较旧的东西。最初的想法归功于Hastie&Tibshirani,Ruppert等人在2003年撰写了一本更古老的教科书。 作为一名应聘者,我对学术统计学家中的时代精神没有太多的感觉。他的工作如何看待?一位研究人员在一个领域做了这么多的事情有点奇怪吗?还是因为没有放入其中而没有引起其他人的注意mgcv?我不认为GAM会使用太多,尽管经过统计学培训的人员可以合理地访问该材料,并且该软件已经相当完善。有很多“背景故事”吗? 来自统计期刊的观点文章和其他类似内容的建议将不胜感激。

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

3
何时使用GAM与GLM
我意识到这可能是一个潜在的广泛问题,但我想知道是否存在可概括的假设,表明使用GAM(广义附加模型)而不是GLM(广义线性模型)? 最近有人告诉我,仅当我认为数据结构是“可加的”时才应使用GAM,即我期望x的加法能够预测y。另一个人指出,GAM与GLM进行的回归分析类型不同,当可以假定线性时,首选GLM。 过去,我一直使用GAM来获取生态数据,例如: 连续时间序列 当数据不具有线性形状时 我有多个x来预测y,以为我认为我可以使用“表面曲线”和统计检验来可视化某些非线性相互作用 对于GAM与GLM的不同之处,我显然不了解。我认为这是一个有效的统计检验,(而且我看到GAM的使用有所增加,至少在生态期刊中如此),但是我需要比其他回归分析更好地了解何时使用了GAM。

3
GAM模型的置信区间
阅读 mgcv::gam的帮助页面: 使用拟合模型预测的任何数量的置信度/可信区间都可轻松获得 但是我想不出一种方法来真正得到一个。我以为predict.gam会有一个type=confidence和level参数,但没有。您能帮助我如何创建它吗?

1
广义可加模型Python库
我知道R具有用于通用加性模型的gam和mgcv库。但是我很难在Python生态系统中找到它们(statsmodels在沙箱中只有原型)。有人知道现有的python库吗?谁知道这可能是一个不错的项目,如果没有的话,它可以为scikit-learn开发/贡献。
14 gam 

1
GAM vs LOESS vs花键
语境:我想提请在不出现参数散点图一条线,所以我使用geom_smooth()的ggplot中R。它会自动返回geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.我收集的GAM代表广义加性模型,并使用三次样条曲线。 以下看法正确吗? 黄土以特定值估算响应。 样条曲线是连接适合数据的不同分段函数(构成广义加性模型)的近似值,三次样条曲线是此处使用的特定样条曲线类型。 最后,何时应使用花键,何时应使用LOESS?

1
广义加性模型(GAM),交互作用和协变量
我一直在探索许多用于预测的工具,并且发现广义可加模型(GAM)具有最大的潜力。GAM非常棒!它们允许非常简洁地指定复杂的模型。但是,同样的简洁性使我有些困惑,特别是在GAM如何理解交互作用项和协变量方面。 考虑一个示例数据集(发布后的代码可重现),其中y是一个由几个高斯扰动的单调函数,外加一些噪声: 数据集具有一些预测变量: x:数据索引(1-100)。 w:辅助功能标记出y存在高斯的部分。w的值为1-20,其中x介于11到30之间,以及51到70之间。否则w为0。 w2:w + 1,因此没有0值。 R的mgcv软件包可轻松为这些数据指定许多可能的模型: 模型1和2非常直观。默认情况下,y仅根据索引值进行x平滑度预测会产生一些模糊正确的提示,但过于平滑。y仅根据w结果预测存在于的“平均高斯”模型中y,而没有其他w值的“感知”模型,所有其他数据点的值均为0。 模型3同时使用x和w作为1D平滑,产生了很好的拟合。模型4使用x并w在2D平滑中使用,也非常适合。这两个模型非常相似,尽管不完全相同。 模型5 x通过“ 模型” w。模型6则相反。mgcv的文档指出,“ by参数可确保平滑函数乘以[by参数中给定的协变量]”。那么5和6型不应该等效吗? 模型7和8使用预测变量之一作为线性项。这些对我来说很直观,因为它们只是在使用GLM对这些预测变量进行处理,然后将影响添加到模型的其余部分。 最后,模型9与模型5相同,除了模型x“通过” w2(为w + 1)进行了平滑处理。对我而言,奇怪的是,w2“ by”交互中缺少零会产生明显不同的效果。 所以,我的问题是: 3型和4型的规格之间有何区别?还有其他例子可以更清楚地说明差异吗? 确切地说,“通过”在这里做什么?我在伍德的书中读到的大部分内容以及该网站的内容都表明“ by”会产生乘法效应,但是我很难理解它的直觉。 为什么模型5和9之间会有如此显着的差异? 接下来是Reprex,用R编写。 library(magrittr) library(tidyverse) library(mgcv) set.seed(1222) data.ex <- tibble( x = 1:100, w = c(rep(0, 10), 1:20, rep(0, 20), 1:20, rep(0, 30)), w2 = …
12 r  modeling  gam  mgcv 

1
GAM适合性摘要
如果我们适合GAM,例如: gam.fit = gam::gam(Outstate ~ Private + s(Room.Board, df = 2) + s(PhD, df = 2) + s(perc.alumni, df = 2) + s(Expend, df = 5) + s(Grad.Rate, df = 2), data = College) 在哪里,我们使用数据集College,该数据集可以在package中找到ISLR。 现在,如果找到适合的摘要,则可以看到: > summary(gam.fit) Call: gam(formula = Outstate ~ Private + s(Room.Board, df = 2) + …
12 anova  gam 

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
用mgcv gam进行随机效应预测
我对使用mgcv中的gam来模拟单个船的简单随机效应(在渔业中随时间反复旅行)建模总的鱼获量感兴趣。我有98个科目,所以我想我会使用gam而不是gamm来模拟随机效果。我的模型是: modelGOM <- gam(TotalFish ~ factor(SetYear) + factor(SetMonth) + factor(TimePeriod) + s(SST) + s(VesselID, bs = "re", by = dum) + s(Distance, by = TimePeriod) + offset(log(HooksSet)), data = GOM, family = tw(), method = "REML") 我已经用bs =“ re”和by = dum编码了随机效应(我读到这将使我能够将血管效应预测为其预测值或零)。“ dum”是1的向量。 该模型可以运行,但是我在预测时遇到问题。我选择了其中一个用于预测的容器(Vessel21),并选择了除预测感兴趣的预测变量(距离)以外的所有其他事物的平均值。 data.frame("Distance"=seq(min(GOM$Distance),max(GOM$Distance),length = 100), "SetYear" = '2006', "SetMonth" …

1
广义加性模型的方差膨胀因子
在用于线性回归的常规VIF计算中,每个自变量/解释变量在普通最小二乘回归中均被视为因变量。即XjXjX_j Xj=β0+∑i=1,i≠jnβiXiXj=β0+∑i=1,i≠jnβiXi X_j = \beta_0 + \sum_{i=1, i \neq j}^n \beta_i X_i 的值被存储用于每个的回归和VIF由下式确定R2R2R^2nnn VIFj=11−R2jVIFj=11−Rj2 VIF_j = \frac{1}{1-R^2_j} 对于特定的解释变量。 假设我的广义加性模型采用以下形式: Y=β0+∑i=1nβiXi+∑j=1msj(Xi).Y=β0+∑i=1nβiXi+∑j=1msj(Xi). Y=\beta_0+ \sum_{i=1}^n \beta_iX_i + \sum_{j=1}^m s_j(X_i) . 这种类型的模型是否有等效的VIF计算?有什么方法可以控制平滑项来测试多重共线性吗?sjsjs_j

1
观察到的等位基因频率是否明显低于预期?
问题:如何构建测试以确定中部至南部山区观察到的“山”-等位基因频率(图1)是否明显低于生态选择模型所预测的(图2)(请参见下文)? 问题:我最初的想法是使模型残差相对于纬度:经度和海拔高度回归(这仅导致纬度和经度之间的相互作用显着)。问题在于,残基(图3)可能反映了模型无法解释的变异和/或它们是生物学上正在发生的事情,例如,等位基因没有时间向南扩散至其潜能,或者基因流存在一定障碍。如果将观察到的(图1)与预期的(图2)山等位基因频率进行比较,则存在明显的差异,尤其是在瑞典和挪威的中南部山脉。我接受该模型可能无法解释所有变化,但是我可以提出一个合理的检验来探索山等位基因尚未在中部至南部山区发挥其潜力的想法吗? 背景:我有一个双等位基因AFLP标记,其频率分布似乎与斯堪的纳维亚半岛的山地(和纬度:经度)与低地栖息地有关(图1)。“山”等位基因几乎固定在多山的北部。南部缺少山脉的“低地”等位基因几乎不存在或固定。当一个人从山上向南移动时,“山”等位基因的发生频率较低。从北到南的“山脉”等位基因频率的差异可能仅是由于系统地理学或历史过程造成的,因为该地区是从北部和南部开始殖民的。例如,如果高山等位基因起源于北部人口,那么也许它还没有时间完全扩展到南部人口, 我的工作假设是“山”等位基因频率是生态选择的结果(无效假设是中性选择)。 对于我的生态选择模型,我使用了以二项式等位基因频率作为响应变量的广义加性模型(GAM)(在Fennoscandinavia上采样了129个站点,每个站点通常采样了10至20个个体),并在以下几个气候和生长季节变量中:预测变量。模型结果如下(TMAX04-06 = 4月至6月的最高温度,Phen_NPPMN =平均生长期植被生产力,PET_HE_YR =年潜在蒸散量,Dist_Coast =到海岸的距离): Family: binomial Link function: logit Formula: Binomial_WW1 ~ s(TMAX_04) + s(TMAX_05) + s(TMAX_06) + s(Phen_NPPMN) + s(PET_HE_YR) + s(Dist_Coast) Parametric coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.74372 0.04736 -15.7 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.