Questions tagged «intercept»


2
去除统计学上显着的截距项会增加线性模型中的
在具有单个解释变量的简单线性模型中, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i 我发现删除截距项可以大大提高拟合度(值从0.3变为0.9)。但是,截距项似乎具有统计意义。R2R2R^2 带拦截: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** …


1
如何处理LASSO中的分类预测变量
我运行的LASSO具有一些分类变量预测变量和一些连续变量预测变量。我对分类变量有疑问。我了解的第一步是将它们分成假人,对它们进行标准化以进行公平的惩罚,然后回归。处理虚拟变量有几种选择: 包括每个因素中除一个假人以外的所有假人,将其作为参考水平。虚拟系数的解释是相对于排除的“参考”类别而言的。截距现在是参考类别的平均响应。 将每个因素中的变量分组,以便将它们全部排除或全部排除。我相信这就是@Glen_b 在这里建议的内容: 通常,是的,您将所有因素放在一起。有几个R软件包可以做到这一点,包括glmnet 包括各个层面,如经@Andrew中号建议在这里: 您可能还需要更改默认的对比功能,默认情况下,该功能不使用每个因子的一个级别(处理编码)。但是由于套索罚分,对于可识别性而言,这不再是必需的,并且实际上使所选变量的解释更加复杂。为此,请设置 contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy')) 现在,无论选择了哪个因子水平,您都可以认为它暗示着这些特定水平相对于所有省略的水平都很重要。在机器学习中,我已经看到这种编码称为“单热编码”。 问题: 在每种方法下,截距和系数的解释是什么? 选择其中之一需要考虑哪些因素? 我们是否要对虚拟系数进行缩放,然后将其解释为从关到开的变化?

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Logistic回归中有无截距模型之间的区别
我想了解逻辑回归中有或没有拦截模型之间的区别 它们之间有什么区别,除了截距系数是相对于基线组的对数(奇数比),无截距系数是相对的(logs)奇数?从我看到的情况来看,两种情况下的系数都相同,但是重要性并不总是相同,并且不明白为什么会这样。此外,在哪些情况下使用无截距的模型是否正确? 这是我的模型:glm(NeverReturn ~ factor(Network) * TotalPrice , family = binomial)而且我不确定是否要保留拦截,因为在“实词”上,总价格无论如何都不能低于50,但是概率是1而不是0,所以我很困惑。

3
Logistic回归中的拦截项
假设我们有以下逻辑回归模型: logit(p)=β0+β1x1+β2x2logit(p)=β0+β1x1+β2x2\text{logit}(p) = \beta_0+\beta_{1}x_{1} + \beta_{2}x_{2} 是事件时的赔率和?换句话说,当和处于最低级别(即使它不为0)时,这是事件的几率吗?例如,如果和仅采用值和则我们不能将它们设置为0。β0β0\beta_0x1=0x1=0x_1 = 0x2=0x2=0x_2=0x1x1x_1x2x2x_2x1x1x_1x2x2x_2222333

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.