Questions tagged «multiple-regression»

包含两个或多个非恒定自变量的回归。

1
样条和非样条项的相互作用是什么意思?
如果我使用lm(y~a*b)R语法将数据拟合为,其中R a是二进制变量且b是数字变量,则a:b交互项是y~bat a= 0和at a= 1的斜率之差。 现在,假设y和之间的关系b是曲线的。如果我现在适合lm(y~a*poly(b,2)),则a:poly(b,2)1是y~b条件的变化在上述水平上的变化a,并且a:poly(b,2)2是y~b^2条件的变化在上水平a。这需要花费一些时间,但是如果这些相互作用系数中的任何一个都明显不同于零,那么我可以说这意味着a不仅影响y峰的垂直位移,而且影响峰的位置以及接近y~b+b^2曲线峰的陡度。 如果我合适lm(y~a*bs(b,df=3))怎么办?我该如何解释a:bs(b,df=3)1,a:bs(b,df=3)2和a:bs(b,df=3)3条件?这些y来自样条线的垂直位移是否可归因于a三个部分的每一个?

1
SEM建模帮助(OpenMx,polycor)
我尝试将SEM应用于一个数据集时遇到很多问题。 我们假设存在5个潜在因子A,B,C,D,E,分别具有指标。A1至A5(有序因子),B1至B3(定量),C1,D1,E1(所有后三个有序因子,E1只有2个水平。我们对所有因子之间的协方差很感兴趣。 我曾尝试OpenMx这样做。这是我的一些尝试: 我首先尝试对所有有序因子使用阈值矩阵,但是收敛失败。 我决定hetcor通过库中的函数使用多色/多序列相关性来代替原始数据polycor(我计划自举样本以获得置信区间)。它也无法收敛! 我试图限制个人使用完整的数据,但是它也失败了! 我的第一个问题是:是否有一种自然的方式来解释这些故障? 我的第二个问题是:我该怎么办??? 编辑:对于将来可能遇到相同问题的读者,在阅读完polycor... 中的功能代码后,解决方案仅是hetcor()与option 一起使用std.err=FALSE。这给出的估计与StasK给出的估计非常相似。我现在没有时间去更好地了解这里发生的事情!StasK很好地回答了以下问题。 我还有其他问题,但在此之前,这里是一个带有RData文件的URL,该文件包含一个L1仅包含完整数据的数据框:data_sem.RData 这里的几行代码显示的失败hetcor。 > require("OpenMx") > require("polycor") > load("data_sem.RData") > hetcor(L1) Erreur dans cut.default(scale(x), c(-Inf, row.cuts, Inf)) : 'breaks' are not unique De plus : Il y a eu 11 avis (utilisez warnings() pour les visionner) > head(L1) A1 A2 …

1
进行多元回归时,何时转换预测变量?
我目前正在研究生阶段上我的第一个应用线性回归课程,并且在多元线性回归中努力应对预测变量转换。我正在使用的文本Kutner等人的“应用的线性统计模型”似乎没有涵盖我所遇到的问题。(除了建议使用Box-Cox方法转换多个预测变量外)。 当面对一个响应变量和几个预测变量时,每个预测变量要努力满足什么条件?我了解我们最终正在寻找误差方差和正态分布误差的恒定性(至少在到目前为止所学的技术中)。我进行了许多练习,例如y ~ x1 + (1/x2) + log(x3),解决方案在哪里一个或多个预测变量发生了变化。 我很了解简单线性回归下的基本原理,因为很容易查看y〜x1和相关的诊断(残差的qq图,残差与y,残差与x等),并测试一下y〜log( x1)更符合我们的假设。 在了解许多预测变量的情况下,是否有一个开始了解何时转换预测变量的好地方? 先感谢您。马特

2
在线性回归中,当我们仅对交互作用项感兴趣时,为什么还要包含二次项?
假设我对线性回归模型,用于ÿ一世= β0+ β1个X1个+ β2X2+ β3X1个X2Yi=β0+β1x1+β2x2+β3x1x2Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2,因为我想看看如果两个协变量之间的相互作用产生作用在Y。 在教授的课程笔记中(我没有与之联系),其中指出:当包括互动术语时,您应该包括他们的第二学位术语。即ÿ一世= β0+ β1个X1个+ β2X2+ β3X1个X2+ β4X21个+ β5X22Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2 +\beta_4x_1^2 + \beta_5x_2^2应包含在回归。 当我们仅对互动感兴趣时,为什么要包含第二学位?

1
您为什么要从混合效应模型中进行预测,而又不包括随机效应呢?
这更多是一个概念性问题,但是在我使用时,R我将参考中的软件包R。如果目的是为了进行预测而拟合线性模型,然后在可能无法获得随机效应的情况下进行预测,那么使用混合效应模型有什么好处,还是应该使用固定效应模型? 例如,如果我有重量与高度数据以及其他一些信息,并且使用构建以下模型lme4,其中受试者是具有因子水平(Ñ = Ñ Ö 。小号一米p 升Ë 小号ññnn = n o 。š 一米p 升Ë 小号ñ=ñØ。s一个米p升Ësn=no.samples): mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F) 然后,我希望能够使用新的身高和年龄数据从模型中预测体重。显然,原始数据的个体差异是在模型中捕获的,但是可以在预测中使用此信息吗?假设我有一些新的身高和年龄数据,并且想要预测体重,我可以这样做: predict(mod1,newdata=newdf) # newdf columns for height, age, subject 这将使用predict.merMod,并且我可以在newdf或set中为(新)主题添加一列re.form =~0。在第一种情况下,尚不清楚模型如何处理“新”主观因素,在第二种情况下,是否会简单地忽略(平均)模型中捕获的个体差异以进行预测? 无论哪种情况,在我看来固定效果线性模型都可能更合适。确实,如果我的理解是正确的,那么如果预测中未使用随机效应,则固定效应模型应预测与混合模型相同的值。应该是这样吗?在R它不是,例如: mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F) predict(mod1,newdata=newdf, …

3
使用外部变量预测时间序列数据
目前,我正在一个项目中进行时间序列数据(每月数据)的预测。我正在使用R进行预测。我有1个因变量(y)和3个独立变量(x1,x2,x3)。y变量具有73个观测值,其他3个变量也具有观测值(alos 73)。从2009年1月到2015年1月。我检查了相关性和p值,将其放入模型中非常重要。我的问题是:如何使用所有自变量进行良好的预测?我没有这些变量的将来值。假设我想预测两年(2017年)后我的y变量。我怎样才能做到这一点? 我尝试了以下代码: model = arima(y, order(0,2,0), xreg = externaldata) 我可以使用此代码对两年内的y值进行预测吗? 我还尝试了回归代码: reg = lm(y ~ x1 + x2 + x3) 但是如何花时间在这段代码中?我如何预测我的y值将超过2年?我是统计和预测的新手。我已经进行了一些读取并查看了滞后值,但是如何在模型中使用滞后值进行预测呢? 实际上,我的总体问题是,如何使用没有未来价值的外部变量来预测时间序列数据?



1
我应该选择哪种自举回归模型?
我有一个具有DV(疾病:是/否)和5个预测变量(人口统计学[年龄,性别,吸烟(是/否)),医学指标(常规)和一种随机治疗方法(是/否)的二元logistic回归模型])。我还为所有双向交互条件建模。主要变量居中,没有多重共线性的迹象(所有VIF <2.5)。 我有一些疑问: 引导程序是否比我的单一模型有利?如果是这样的话, 我应该选择哪种引导模式?我只是想看看引导算法是否遵循随机方法来创建新样本,或者它们是否具有严格的算法。因此,我每次尝试都重新采样了1000次(所以我有几个自举模型,每个模型都有1000次试验)。但是,每次引导模型的系数都不同(尽管试验次数始终为1000)。所以我想知道应该为我的报告选择哪一个?有些变化很小,并且不会影响我的系数的显着性,但是有些变化会使我的某些系数不显着(例如,只有那些在原始模型中P值接近0.05且变为0.06的系数)。 我应该选择更高的数字,例如10,000吗?如何确定此限制? 我还是应该首先重新引导吗?如果每次的结果都不同,我可以依靠它的结果吗? 您还有其他想法可以帮助我解决我的问题吗? 非常感谢。

3
可能范围
假设三个时间序列,和X1X1X_1X2X2X_2YYY 上运行的普通线性回归〜(),我们得到。普通的线性回归〜得到。假设YYYX1X1X_1Y=bX1+b0+ϵY=bX1+b0+ϵY = b X_1 + b_0 + \epsilonR2=UR2=UR^2 = UYYYX2X2X_2R2=VR2=VR^2 = VU&lt;VU&lt;VU < V 什么是最小和最大的可能值上回归〜()?R2R2R^2YYYX1+X2X1+X2X_1 + X_2Y=b1X1+b2X2+b0+ϵY=b1X1+b2X2+b0+ϵY = b_1 X_1 + b_2 X_2 + b_0 + \epsilon 我相信最小应该是 +一个小值,因为添加新变量总是会增加,但是我不知道如何量化这个小值,也不知道如何获得最大范围。R2R2R^2VVVR2R2R^2

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(&gt;|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
线性多元回归方程中所有IV之间的共享方差在哪里?
在线性多元回归方程中,如果beta权重反映每个独立变量的贡献超过所有其他IV的贡献,那么在回归方程中,所有IV共享的预测DV的方差是什么? 例如,如果下面显示的维恩图(并取自CV的“关于”页面:https://stats.stackexchange.com/about)被重新标记为3 IV和1 DV,带有星号的区域将输入到哪里进入多元回归方程?

4
拟合线性模型后,是否可以将拟合残差分解为偏差和方差?
我想将数据点分类为需要更复杂的模型,或者不需要更复杂的模型。我目前的想法是将所有数据拟合为简单的线性模型,并观察残差的大小以进行此分类。然后,我读了一些关于误差的偏差和方差贡献的信息,并意识到,如果我可以直接计算偏差,那么使用总误差(残差或标准残差)可能是更好的方法。 是否可以使用线性模型直接估算偏差?有无测试数据?交叉验证是否对您有帮助? 如果不是,是否可以使用线性模型的平均自举合奏(我认为它称为装袋)来近似偏差?

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
数据空间,变量空间,观察空间,模型空间(例如,线性回归)
假设我们有一个数据矩阵(它是 ×)和标签矢量(它是 ×1)。在这里,矩阵的每一行都是一个观察值,每一列都对应一个维度/变量。(假设)XX\mathbf{X}ññnpppÿÿYññnÑ &gt; pñ&gt;pn>p 那么什么data space,variable space,observation space,model space是什么意思? 列向量跨越的空间是否是一个(退化的) -D空间,因为它具有坐标,而列为,又称为列可变空间,因为它被变量向量跨越了?还是因为每个维度/坐标都对应一个观测值,所以将其称为观测空间?ññnññnppp 行向量跨越的空间又如何呢?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.