Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
研究逻辑回归的稳健性,以防止违反逻辑线性
我正在执行具有二进制结果(启动和不启动)的逻辑回归。我混合的预测变量都是连续变量或二分变量。 使用Box-Tidwell方法,我的连续预测变量之一可能违反了logit线性的假设。拟合优度统计没有迹象表明拟合是有问题的。 随后,我再次运行回归模型,将原始连续变量替换为:首先是平方根变换,其次是变量的二分形式。 在检查输出时,拟合优度似乎略有提高,但残差成为问题。参数估计值,标准误差和仍然相对相似。在我的假设中,在这三个模型中,数据的解释都没有改变。exp(β)exp⁡(β)\exp(\beta) 因此,就我的结果的实用性和数据解释的意义而言,似乎应该使用原始的连续变量来报告回归模型。 我想知道这一点: Logistic回归何时能抵抗logit假设线性度的潜在违反? 鉴于我上面的示例,在模型中包括原始连续变量似乎可以接受吗? 有什么参考或指南可以推荐何时可以令人满意地接受模型对潜在的logit线性违反的鲁棒性?

1
广义最小二乘:从回归系数到相关系数?
对于具有一个预测变量的最小二乘法: y=βx+ϵy=βx+ϵy = \beta x + \epsilon 如果和在拟合之前已标准化(即),则:xxxyyy∼N(0,1)∼N(0,1)\sim N(0,1) ββ\beta与皮尔逊相关系数。rrr ββ\beta在反射回归中相同:x=βy+ϵx=βy+ϵx = \beta y + \epsilon 对于广义最小二乘(GLS),是否同样适用?即,如果我将数据标准化,是否可以直接从回归系数中获得相关系数? 通过对数据的实验,反射的GLS得出不同的系数,而且我不确定我是否认为回归系数与我的相关期望值相符。我知道人们引用了GLS相关系数,所以我想知道他们是如何得出的,它们的真正含义是什么?ββ\beta

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …

1
线性回归的因变量是比率
我正在进行线性回归,其中因变量的比率范围为0.01到100。 是否可以对因变量和对数进行对数取对数?我正在匹配一项研究的结果,这就是他们所做的。 取对数与按原样使用比率有什么区别?
10 regression 



3
与在回归中建立多个模型相比,估算的优势是什么?
我想知道是否有人可以提供为什么缺失数据的插补比仅仅为缺失数据的案例建立不同模型更好的见解。尤其是在[广义]线性模型的情况下(我也许可以看到在非线性情况下情况有所不同) 假设我们有基本的线性模型: ÿ= β1个X1个+ β2X2+ β3X3+ ϵÿ=β1个X1个+β2X2+β3X3+ϵ Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon 但是我们的数据集包含一些缺少记录。在将使用模型的预测数据集中,也将丢失X 3的情况。似乎有两种方法可以进行:X3X3X_3X3X3X_3 多种型号 我们可以将数据分为和非X 3两种情况,并为每种情况建立一个单独的模型。如果我们假设X 3与X 2紧密相关,则丢失的数据模型可以使X 2超重以获得最佳的二变量预测。同样,如果丢失的数据案例略有不同(由于缺少数据机制),则可以合并该差异。不利的一面是,这两个模型只能分别拟合一部分数据,而不能“互相帮助”,因此在有限的数据集上拟合可能较差。X3X3X_3X3X3X_3X3X3X_3X2X2X_2X2X2X_2 归因 回归多重插补将首先通过基于X 1和X 2建立模型来填充,然后随机采样以保持插补数据中的噪声。由于这又是两个模型,这会不会最终与上述的多模型方法相同?如果它能跑赢大市-收益来自何处?仅仅是X 1的拟合在整个集合上完成了吗?X3X3X_3X1个X1个X_1X2X2X_2X1个X1个X_1 编辑: 尽管到目前为止,Steffan的回答说明,将完整的案例模型拟合到推算的数据上将胜过对完整数据的拟合,而且显然相反的事实是正确的,但是对于缺失数据预测仍然存在一些误解。 如果我拥有上述模型,甚至可以完美拟合,那么如果我在预测时仅输入零,则通常将是一个糟糕的预测模型。可以想象,例如,然后X 2是完全无用的(β 2 = 0),当X 3是存在的,但仍然是在不存在有用的X 3。X2= X3+ ηX2=X3+ηX_2 = X_3+\etaX2X2X_2β2= 0β2=0\beta_2 = 0X3X3X_3X3X3X_3 我不明白的关键问题是:构建两个模型,一个使用和一个使用(X 1,X …

2
对数转换线性回归,对数回归与对数混合模型之间有什么区别?
假设我有10个学生,每个学生都尝试解决20个数学问题。对问题的评分为正确或不正确(在longdata中),每个学生的表现都可以通过准确性度量(在subjdata中)进行总结。下面的模型1、2和4看起来会产生不同的结果,但是我知道它们在做相同的事情。他们为什么产生不同的结果?(我提供了模型3作为参考。) library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

2
有影响的残差与异常值
首先,我应该声明已经在该站点上搜索了答案。我或者没有找到可以回答我问题的问题,或者我的知识水平太低,以至于我没有意识到自己已经阅读了答案。 我正在为AP统计考试学习。我必须学习线性回归,主题之一是残差。它有一份第253页的统计和数据分析简介副本。 双变量数据集中的异常点是那些在方向或方向上与散点图中的大多数其他点都偏离的点Xxxyyy 如果观察值的值与其余数据(在方向上与其余数据分开)相距甚远,则可能是有影响的观察。为了确定该观察结果是否确实具有影响力,我们评估该观察结果的去除是否对最小二乘法斜率或截距的值有很大影响。xxxxxx 如果观察值具有较大的残差,则为异常值。离群值观察值在方向上远离最小二乘法线。yyy Stattreck.com列出了四种根据残差确定异常值的方法: 与整体模式差异很大的数据点称为离群值。有四种方法可以将数据点视为异常值。 与其他数据点相比,它可能具有极限X值。 与其他数据点相比,它可能具有极高的Y值。 它可能具有极高的X和Y值。 即使没有极高的X或Y值,也可能与其余数据相距甚远。 这两个来源似乎相互冲突。谁能帮我消除困惑。另外,如何定义极端。如果数据点位于(Q1-1.5IQR,Q3 + 1.5IQR)之外,则AP Statistics使用该规则,这是一个异常值。我不知道如何仅通过残差图来应用它。

2
“ Stata”或“ R”中回归不连续设计中的图形
Lee和Lemieux(p。31,2009)建议研究人员在进行回归不连续性设计分析(RDD)时呈现图表。他们建议执行以下步骤: “ ...对于某个带宽,以及分别对于截止值左侧和右侧的一定数量的仓和 ,想法是构造仓(, ],其中 +,其中 “ķ 0 ķ 1 b ķ b ķ + 1 ķ = 1 ,。。。,ķ = ķ 0 ķ 1 b ķ = Ç - (ķ 0 - ķ + 1 )⋅ ħ 。Hhhķ0K0K_0ķ1个K1K_1bķbkb_kbk + 1bk+1b_{k+1}ķ = 1 ,。。。,K= K0k=1,...,K=K0k = 1, . . . …

1
在无病生存分析中如何处理死亡?
如果我有无病生存数据(定义为是否已诊断出特定疾病以及事件发生的时间或后续损失)以及总体生存数据,那么我该如何处理在没有疾病的情况下发生的死亡疾病事件?是否对这些患者进行了检查?还是应该从无病生存(dfs)分析中排除此类患者?我计划针对几种特定类型的疾病分别进行dfs分析。

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
多重共线性是否隐含在分类变量中?
我注意到,在修补多元回归模型时,在分类变量的类别内(当然,在排除参考类别之后),有一个很小但引人注目的多元共线性效应,以方差膨胀因子来衡量。 例如,假设我们有一个包含连续变量y和一个名义分类变量x的数据集,该变量具有k个可能的互斥值。我们将这可能的值编码为0/1虚拟变量。然后,我们运行回归模型。虚拟变量的VIF分数结果为非零。实际上,随着类别数量的增加,VIF也随之增加。使虚拟变量居中似乎不会更改VIF。x 1,x 2,… ,x k y = b 0 + b 1 x 1 + b 2 x 2 + ⋯ + b k - 1 x k - 1 k - 1ķkkX1个,X2,… ,xķx1,x2,…,xkx_1, x_2,\dots ,x_kÿ= b0+ b1个X1个+ b2X2+ ⋯ + bk − 1Xk − 1y=b0+b1x1+b2x2+⋯+bk−1xk−1y = b_0 + …

2
指数对数回归系数与比值比不同
据我了解,对数回归的指数贝塔值是该变量与相关因变量的比值比。但是,该值与手动计算的优势比不匹配。我的模型使用保险等其他指标预测发育迟缓(营养不良的一种衡量标准)。 // Odds ratio from LR, being done in stata logit stunting insurance age ... etc. or_insurance = exp(beta_value_insurance) // Odds ratio, manually calculated odds_stunted_insured = num_stunted_ins/num_not_stunted_ins odds_stunted_unins = num_stunted_unins/num_not_stunted_unins odds_ratio = odds_stunted_ins/odds_stunted_unins 这些值不同的概念原因是什么?控制回归中的其他因素?只是想能够解释差异。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.