Questions tagged «regression-coefficients»

回归模型的参数。最常见的是,将与自变量相乘的值以获得因变量的预测值。

2
测试套索逻辑回归中的系数显着性
[ 这里提出了类似的问题,但没有答案] 我已经使用L1正则化拟合了逻辑回归模型(套索逻辑回归),我想测试拟合系数的显着性并获得其p值。我知道Wald的检验(例如)是在不进行正则化的情况下测试单个系数在完全回归中的显着性的一种选择,但是对于Lasso,我认为会出现更多的问题,这些问题不允许使用常规的Wald公式。例如,检验所需的方差估计不遵循通常的表达式。套索纸原件 http://statweb.stanford.edu/~tibs/lasso/lasso.pdf 建议使用基于引导程序的程序来估计系数方差,(再次,我认为)测试可能需要此方差(第2.5节,第272页的最后一段和273的开头): 一种方法是通过引导程序:要么可以固定要么可以针对每个引导程序样本对进行优化。固定类似于选择(特征的)最佳子集,然后对该子集使用最小二乘标准误差ttttttttt 我的理解是:反复将Lasso回归拟合到整个数据集,直到找到正则化参数的最佳值(这不是引导程序的一部分),然后仅使用由Lasso选择的特征将OLS回归拟合到子样本数据并应用通常的公式来计算每个回归的方差。(然后,我该如何处理每个系数的所有这些方差以获得每个系数的最终方差估计?) 此外,将常用的显着性检验(例如Wald检验利用估计的beta和方差)与系数的Lasso估计和自举估计方差一起使用是否正确?我可以肯定它不是,但是任何帮助(使用其他测试,使用更直接的方法,无论如何...)都非常受欢迎。 根据这里的答案,我怀疑无法得出推论和p值。就我而言,p值是一个外部要求(尽管我选择使用L1正则化)。 非常感谢 编辑 如果我仅使用上一次套索逻辑回归所选择的变量来拟合OLS逻辑回归怎么办?显然(请参阅此处), 进行交叉验证后,无需再次运行模型(您只需从cv.glmnet的输出中获取系数),实际上,如果您在不惩罚的情况下拟合新的逻辑回归模型,那么您将无法使用套索 但是,如果我这样做的唯一目的是能够在不使变量数量减少的情况下计算p值呢?这是一个很肮脏的方法吗?:-)

2
比较R中两个多项式回归之间差异的统计显着性
因此,首先,我在这个论坛上进行了一些研究,我知道 已经提出了非常相似的问题,但是通常没有得到正确答案,或者有时答案不够详尽,我无法理解。所以这一次我的问题是:我有两组数据,每组数据都像这样进行多项式回归: Ratio<-(mydata2[,c(2)]) Time_in_days<-(mydata2[,c(1)]) fit3IRC <- lm( Ratio~(poly(Time_in_days,2)) ) 多项式回归图为: 系数为: > as.vector(coef(fit3CN)) [1] -0.9751726 -4.0876782 0.6860041 > as.vector(coef(fit3IRC)) [1] -1.1446297 -5.4449486 0.5883757 现在,我想知道,是否有一种方法可以使用R函数进行检验,从而知道两个天数的相关区间为[ 1100]。 根据我的理解,我无法直接应用方差分析测试,因为这些值来自两组不同的数据或AIC(用于比较模型/真实数据)。 我试图按照@Roland在相关问题中给出的说明进行操作,但在查看结果时可能会误解了一些内容: 这是我所做的: 我将两个数据集合并为一个。 f是@Roland谈到的可变因素。我将第一组的数字设置为1,将另一组的数字设置为0。 y<-(mydata2[,c(2)]) x<-(mydata2[,c(1)]) f<-(mydata2[,c(3)]) plot(x,y, xlim=c(1,nrow(mydata2)),type='p') fit3ANOVA <- lm( y~(poly(x,2)) ) fit3ANOVACN <- lm( y~f*(poly(x,2)) ) 我的数据现在看起来像这样: 红色的fit3ANOVA仍在工作,但我对蓝色的问题fit3ANOVACN有疑问,该模型的结果很奇怪。我不知道拟合模型是否正确,我不明白@Roland的确切含义。 考虑@DeltaIV解决方案,我想在那种情况下: 即使模型重叠,它们的模型也存在显着差异。我可以这样假设吗?

3
在R(或一般而言)中是否可能迫使回归系数成为某个符号?
我正在处理一些现实世界的数据,回归模型产生了一些违反直觉的结果。通常,我相信统计数据,但实际上其中一些事情是不正确的。我看到的主要问题是,实际上必须将它们负相关时,一个变量的增加会引起响应的增加。 有没有一种方法可以为每个回归系数强制指定符号?任何这样做的R代码也将不胜感激。 感谢您提供的所有帮助!



4
如何在线性回归中解释对数变换的系数?
我的情况是: 我已经对数转换了1个连续因变量和1个连续预测变量,以对它们的残差进行归一化,以进行简单的线性回归。 对于将这些转换后的变量与其原始上下文相关联的任何帮助,我将不胜感激。 我想使用线性回归来基于2010年缺勤的天数来预测2011年缺勤的天数。大多数学生缺勤0天或仅几天,数据正向左偏斜。因此,需要进行变换以使用线性回归。 我对两个变量都使用了log10(var + 1)(对于缺勤0天的学生使用+1)。我使用回归是因为我也想添加分类因素-性别/种族等。 我的问题是: 我想反馈给的听众不会理解log10(y)= log(constant)+ log(var2)x(坦率地说,我也不是)。 我的问题是: a)是否有更好的方法来解释回归中的转换变量?即在2010年永远错失1天,而在2011年错失2天,而在2010年永远错失1个日志单位,2011年是否错失x个日志单位? b)具体而言,鉴于此消息来源的引用语段如下: “这是数学标准化考试成绩每增加一个单位的负二项式回归估计,因为模型中的其他变量保持不变。如果学生将她的数学考试成绩提高一个点,则对数的对数差在使模型中的其他变量保持不变的同时,预期计数将减少0.0016单位。” 我想知道: 这句话是不是说UNTRANSFORMED变量数学分数的每增加一单位,常数(a)UNTRANSFORMED就会减少0.0016 ,那么如果数学分数上升两点,我就要从常数a减去0.0016 * 2? 这是否意味着我通过使用指数(a)和指数(a + beta * 2)来获得几何平均值,并且我需要计算这两者之间的百分比差,以说明预测变量的影响/有因变量? 还是我完全错了? 我正在使用SPSS v20。很抱歉在一个很长的问题中提出这个问题。

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
发现高维,相关数据和主要特征/协变量;多重假设检验?
我有一个约有5,000个经常相关的特征/协变量和二进制响应的数据集。数据是给我的,我没有收集。我使用套索和梯度提升来构建模型。我使用迭代的嵌套交叉验证。我报告了Lasso在梯度增强树中最大(绝对)的40个系数和40个最重要的特征(40个并没有什么特别的;它似乎是一个合理的信息量)。我还报告了这些数量在CV的折叠和迭代中的变化。 我有点想“重要”功能,不对p值或因果关系或其他任何东西做任何陈述,而是考虑将此过程视为一种现象-尽管不完美,而且是某种随机性-而不是某种现象。 假设我正确完成了所有这些操作(例如,正确执行了交叉验证,针对套索进行了缩放),这种方法是否合理?是否存在多个假设检验,事后分析,错误发现等问题?还是其他问题? 目的 预测不良事件的可能性 首先,准确估计概率 更为次要的是,作为一项健全性检查,但也许还可以揭示一些可以进一步研究的新颖预测变量,请检查上述系数和重要性。 消费者 有兴趣预测此事件的研究人员以及最终不得不修复该事件的人员 我希望他们摆脱困境 如果他们希望使用自己的数据重复所述的建模过程,则使他们能够预测事件。 为意外的预测因素提供一些启示。例如,可能发现完全出乎预料的是最佳预测器。因此,其他地方的建模者可能会更认真地考虑所述预测变量。

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
可以使用线性回归中的标准化
我试图解释一篇文章的结果,他们运用多元回归来预测各种结果。但是的(定义为标准B系数,其中是从属变量且是预测变量)报告似乎与报告的不匹配:ββ\betaβx1=Bx1⋅SDx1SDyβx1=Bx1⋅SDx1SDy\beta_{x_1} = B_{x_1} \cdot \frac{\mathrm{SD}_{x_1}}{\mathrm{SD}_y}yyyx1x1x_1R2R2R^2 尽管为-0.83,-0.29,-0.16,-0.43、0.25和-0.29,但报告的仅为0.20。ββ\betaR2R2R^2 同样,三个预测因子:体重,BMI和脂肪%是共线的,在性别内彼此相关,r = 0.8-0.9。 值是否适合这些,或者与之间没有直接关系?R2R2R^2ββ\betaββ\betaR2R2R^2 此外,多共线性预测变量的问题可能会影响第四个预测变量的(VO2max),它与上述三个变量在r = 0.4附近相关吗?ββ\beta

3
回归系数的偏差方差折衷是什么?如何推导?
在本文中(仅使用误差对比度进行方差分量的贝叶斯推断,Harville,1974年),作者声称 成为“众所周知的线性回归 其中 (y- Xβ)′H− 1(y- Xβ)= (y- Xβ^)′H− 1(y- Xβ^)+ (β- β^)′(X′H− 1X)(β- β^)(ÿ-Xβ)′H-1个(ÿ-Xβ)=(ÿ-Xβ^)′H-1个(ÿ-Xβ^)+(β-β^)′(X′H-1个X)(β-β^)(y-X\beta)'H^{-1}(y-X\beta)=(y-X\hat\beta)'H^{-1}(y-X\hat\beta)+(\beta-\hat\beta)'(X'H^{-1}X)(\beta-\hat\beta)ε 〜ñÿ= Xβ+ϵ,y=Xβ+ϵ,y=X\beta+\epsilon,ϵ∼N(0,H).ϵ∼N(0,H).\epsilon\sim\mathcal{N}(0, H). 这个怎么知名的?证明这一点的最简单方法是什么?

1
涉及高级案例交互时的Cox比例风险模型和系数解释
这是我使用的Coxph模型的摘要输出(我使用R,输出基于最佳最终模型,即包括所有重要的解释变量及其相互作用): coxph(formula = Y ~ LT + Food + Temp2 + LT:Food + LT:Temp2 + Food:Temp2 + LT:Food:Temp2) # Y<-Surv(Time,Status==1) n = 555 coef exp(coef) se(coef) z Pr(>|z|) LT 9.302e+02 Inf 2.822e+02 3.297 0.000979 *** Food 3.397e+03 Inf 1.023e+03 3.321 0.000896 *** Temp2 5.016e+03 Inf 1.522e+03 3.296 0.000979 *** LT:Food …

3
如何将系数项应用于线性方程中的因子和交互项?
使用R,我为来自连续和离散预测变量混合的单个响应变量拟合了线性模型。这是非常基础的,但是我很难理解离散因子的系数是如何工作的。 概念:显然,连续变量'x'的系数是以以下形式应用的,y = coefx(varx) + intercept但是如果该因子是非数值的,那么该因子对因子z怎么起作用?y = coefx(varx) + coefz(factorz???) + intercept 具体:我在R中拟合了一个模型,lm(log(c) ~ log(d) + h + a + f + h:a)其中h和f是离散的非数值因素。系数为: Coefficients: Estimate (Intercept) -0.679695 log(d) 1.791294 h1 0.870735 h2 -0.447570 h3 0.542033 a 0.037362 f1 -0.588362 f2 0.816825 f3 0.534440 h1:a -0.085658 h2:a -0.034970 h3:a -0.040637 我如何使用它们来创建预测方程: …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.