Questions tagged «regression-coefficients»

回归模型的参数。最常见的是,将与自变量相乘的值以获得因变量的预测值。


1
从正交多项式回归中恢复原始系数和方差
看来,如果我有一个回归模型如yi∼β0+β1xi+β2x2i+β3x3iyi∼β0+β1xi+β2xi2+β3xi3y_i \sim \beta_0 + \beta_1 x_i+\beta_2 x_i^2 +\beta_3 x_i^3我可以拟合原始多项式并获得不可靠的结果,也可以拟合正交多项式并获得没有直接物理解释的系数(例如,我无法使用它们来找到原始比例上的极值位置)。似乎我应该能够同时兼顾两个方面,并且能够将拟合的正交系数及其方差转换回原始比例。我已经学习了应用线性回归的研究生课程(使用Kutner,5ed),并且浏览了Draper(3ed,由Kutner引用)中的多项式回归一章,但是没有找到有关如何执行此操作的讨论。的帮助文本poly()中的R功能没有。我也没有在网络搜索中找到任何内容,包括此处。正在从拟合正交多项式的系数中重构原始系数(并获得其方差)。 无法做,我在浪费时间。 可能是可行的,但在一般情况下还不知道怎么做。 可能但未讨论,因为“谁愿意?” 可能但由于“显而易见”而未进行讨论。 如果答案是3或4,如果有人能耐心地解释如何做到这一点或指出这样做的来源,我将不胜感激。如果是1或2,我仍然很想知道障碍是什么。非常感谢您阅读本文,如果我忽略了明显的内容,我向您致歉。

4
“适度”还是“互动”?
我遇到了在很多情况下可以互换使用的这两个术语。 基本上,调节者(M)是影响X和Y之间关系的因素。调节分析通常使用回归模型进行。例如,性别(M)会影响“产品研究”(X)和“产品购买”(Y)之间的关系。 在交互中,X1和X2交互以影响Y。此处的相同示例是“产品研究”(X1)受“性别”(X2)影响,并且一起影响“产品购买”(Y)。 我可以看到,适度时,M影响XY关系,但在交互作用中,M(在这种情况下为性别)影响其他IV。 问题:如果我的项目目的是看性别如何影响X和Y之间的关系,我应该使用节制还是互动? 注意:我的项目是关于X和Y之间的相关性,而不是X和Y之间的因果关系。

2
解释发生率比
因此,我想拟合一个随机效应负二项式模型。对于这种模型,STATA可以产生指数系数。根据帮助文件,这些系数可以解释为发生率。不幸的是,我不是英语为母语的人,我也不是很了解什么是发病率比率或如何翻译它们。 所以我的问题是,我该如何解释发生率。例如: 如果模型给我一个变量的发生率比为0.7。这将意味着依赖变数的预期观察数(计数)。如果独立var改变一个单位,则改变.7吗? 有人可以帮忙吗?

2
关于线性关系,r,r平方和残留标准偏差告诉我们什么?
我从事回归分析解释的工作很少,但是我对r,r平方和残差标准偏差的含义感到非常困惑。我知道定义: 表征 r测量散点图上两个变量之间线性关系的强度和方向 R平方是数据与拟合回归线的接近程度的统计量度。 残留标准偏差是用于描述围绕线性函数形成的点的标准偏差的统计术语,并且是对被测量因变量的准确性的估计。(不知道单位是什么,这里有关单位的任何信息都将有所帮助) (来源:此处) 问题 尽管我“理解”了这些特征,但我确实理解了这些术语如何共同得出关于数据集的结论。我将在此处插入一个小示例,也许这可以作为回答我的问题的指南(随时使用您自己的示例!) 示例 这不是howework问题,但是我在书中进行搜索以获得一个简单示例(我正在分析的当前数据集过于复杂和庞大,无法在此处显示) 在一个大玉米田中随机选择了20个地块,每个地块10 x 4米。对于每个样地,观察植物密度(样地中的植物数量)和平均穗轴重量(每穗轴的谷物克数)。下表给出了结果:(来源:生命科学统计) ╔═══════════════╦════════════╦══╗ ║ Platn density ║ Cob weight ║ ║ ╠═══════════════╬════════════╬══╣ ║ 137 ║ 212 ║ ║ ║ 107 ║ 241 ║ ║ ║ 132 ║ 215 ║ ║ ║ 135 ║ 225 ║ ║ ║ 115 ║ …

3
具有交互作用项的联合模型与用于组比较的单独回归
在收集了先前问题和讨论的宝贵反馈后,我提出了以下问题:假设目标是检测两组之间的效果差异,例如男性与女性之间的差异。有两种方法可以做到这一点: 对两组进行两个单独的回归,并使用Wald检验拒绝(或不拒绝)原假设:,其中是男性回归中一个IV的系数,是相同回归中的系数四,女性退步。H0H0H_0b1−b2=0b1−b2=0b_1-b_2=0b1b1b_1b2b2b_2 将这两个组合并在一起,并通过包含性别虚拟对象和交互项(IV * genderdummy)来运行联合模型。然后,将基于交互作用的符号和显着性的t检验来检测组效应。 如果在情况(1)中拒绝Ho,即组差异很大,但是在情况(2)中交互项项的系数在统计上不重要,即组差异不重要,该怎么办。反之亦然,在情况(1)中不拒绝Ho,并且在情况(2)中交互项很重要。我几次都以这种结果告终,我想知道哪种结果会更可靠,以及这种矛盾背后的原因是什么。 非常感谢!

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


1
LASSO回归系数的解释
我目前正在为具有约300个变量和800个观察值的数据集构建二进制结果的预测模型。我已经在该站点上阅读了很多有关逐步回归相关问题以及为什么不使用它的知识。 我一直在阅读LASSO回归及其功能选择功能,并已成功使用“插入符号”包和“ glmnet”实现了它。 我能够提取与优化模型的系数lambda,并alpha从“插入符号”; 但是,我不熟悉如何解释系数。 LASSO系数的解释方法是否与逻辑回归相同? 在逻辑回归中使用从LASSO中选择的特征是否合适? 编辑 系数的解释(如LASSO回归的指数系数一样)是系数保持1个单位变化时的对数赔率,同时保持所有其他系数不变。 https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpreting-odds-ratios-in-logistic-regression/

1
比较同一模型在不同数据集上的回归系数
我正在评估同一制冷系统中使用的两(2)种制冷剂(气体)。我有饱和吸气温度(),冷凝温度()和安培数()数据用于评估。有两(2)套数据;第一制冷剂()和第二制冷剂()。我正在使用线性多元(&)三阶多项式模型进行回归分析。我想确定第二种制冷剂平均消耗多少/更多的安培数(或类似的性能比较指标)。SSSDDDYYYR1R1R_1R2R2R_2SSSDDD 我的第一个想法是: 确定要使用的模型:Y=b0+b1S+b2D+b3SD+b4S2+b5D2+b6S2D+b7D2S+b8D3+b9S3Y=b0+b1S+b2D+b3SD+b4S2+b5D2+b6S2D+b7D2S+b8D3+b9S3Y = b_0 + b_1S + b_2D + b_3SD + b_4S^2 + b_5D^2 + b_6S^2D + b_7D^2S + b_8D^3 + b_9S^3 从基准数据()推导系数()。bibib_iR1R1R_1 使用这些系数,对于每一个&在数据集,计算每一个预期安培平局(),然后平均。SSSDDDR2R2R_2Y^Y^\hat{Y} 比较平均值与数据的实际平均安培数()。Y^Y^\hat{Y}Y2Y2Y_2R2R2R_2 percent (%) change=(Y2−Y^)/Y^percent (%) change=(Y2−Y^)/Y^\text{percent (%) change} = (Y_2 - \hat{Y}) / \hat{Y} 但是,由于第二种制冷剂的热性能略有不同,并且制冷系统的变化很小(TXV和过热调节),因此我认为这种“基准比较方法”并不准确。 我的下一个想法是做两(2)个单独的回归分析: Y1Y2=a0+a1S1+a2D1+a3S1D1+a4S21+a5D21+a6S21D1+a7D21S1+a8D31+a9S31=b0+b1S2+b2D2+b3S2D2+b4S22+b5D22+b6S22D2+b7D22S2+b8D32+b9S32Y1=a0+a1S1+a2D1+a3S1D1+a4S12+a5D12+a6S12D1+a7D12S1+a8D13+a9S13Y2=b0+b1S2+b2D2+b3S2D2+b4S22+b5D22+b6S22D2+b7D22S2+b8D23+b9S23\begin{align} Y_1 &= a_{0} + a_{1}S_1 + a_{2}D_1 + …

1
如何解释已记录的结果变量的负线性回归系数?
我有一个线性回归模型,其中记录了因变量,而自变量是线性的。关键自变量的斜率系数为负: .。不确定如何解释。− .0564−.0564-.0564 我是否使用绝对值然后将其变为负值,如下所示: (exp(0.0564 )- 1 )⋅ 100 = 5.80(exp⁡(0.0564)−1)⋅100=5.80(\exp(0.0564)-1) \cdot 100 = 5.80 要么 我是否要像这样插入负系数: (exp(- 0.0564 )- 1 )⋅ 100 = - 5.48(exp⁡(−0.0564)−1)⋅100=−5.48(\exp(-0.0564)-1) \cdot 100 = -5.48 换句话说,我是使用绝对数字然后将其变为负数还是插入负系数?我如何用X的单位增加与Y的__%减少相关的方式表达我的发现?如您所见,这两个公式产生两个不同的答案。

2
如何将标准化系数转换为非标准化系数?
我的目标是在给定一组独立变量的情况下,使用先前对该主题的研究得出的系数来预测实际结果。但是,研究论文仅列出了Beta系数和t值。我想知道是否可以将标准化系数转换为非标准化系数。 将我的非标准化独立变量转换为标准化变量以计算预测值是否有用?我将如何返回到非标准化的预测值(如果可能的话) 从纸上添加了示例行: 公交线路数量(公交线路)| 0.275(测试版)| 5.70 ***(t值) 关于自变量,我也得到了这一点: 公交线路数量(公交线路)| 12.56(平均)| 9.02(标准)| 1(分钟)| 53(最大)


3
为什么
有一个回归模型,其中且且,其相关系数为。Y=a+bXY=a+bXY = a + bXa=1.6a=1.6a = 1.6b=0.4b=0.4b=0.4r=0.60302r=0.60302r = 0.60302 如果随后将和切换,并且等式变为,其中和,则值为。XXXYYYX=c+dYX=c+dYX = c + dYc=0.4545c=0.4545c=0.4545d=0.9091d=0.9091d=0.9091rrr0.603020.603020.60302 我希望有人能解释为什么(d×b)0.5(d×b)0.5(d\times b)^{0.5}也是0.603020.603020.60302。

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.