3 什么时候应该使用带有虚拟编码的多元回归与ANCOVA? 我最近分析了一个使用ANCOVA操纵2个类别变量和1个连续变量的实验。但是,一位审阅者建议,将分类变量编码为虚拟变量的多元回归是对分类变量和连续变量进行实验的更合适的测试。 什么时候使用带有虚拟变量的ANCOVA与多元回归比较合适?在两次测试之间进行选择时应考虑哪些因素? 谢谢。 20 regression multiple-regression ancova categorical-encoding
1 我们真的用*百万*系数/独立变量执行多元回归分析吗? 我花了一些时间学习机器学习(对于递归很抱歉:),在多变量线性回归的情况下,我选择选择梯度下降而不是直接方程求解来计算回归系数的经验法则使我很感兴趣。 经验法则:如果特征数目(读出的系数/自变量)是间或以上一百万,去与梯度下降,否则矩阵求逆运算是在商用硬件相当可控,从而计算系数直接应该足够好。10 ,000 - 1 ,000 ,00010,000-1个,000,00010,000 - 1,000,000 从计算上来说,我得到了权衡/限制。但是从统计学的角度来看,我们真的可以计算出具有这么多系数的模型吗?如果我还记得我在研究生院的多元线性回归课,我们被警告不要使用过多的自变量,因为它们对因变量的影响可能微乎其微,否则它们的分布将不服从我们对数据所做的假设。即使我确实开阔了思维以考虑“许多IV”,我仍然不会想成千上万。 问题: 这是真的发生还是理论上的问题? 分析一百万个静脉注射有什么意义?相对于无视它们,这是否真的使我们获得的信息价值大大增加了? 还是因为一开始我们不知道什么是有用的,所以我们只是运行该死的回归来看看什么是有用的,然后从那里去并可能删减IV组? 我仍然相信,仅仅因为我们可以分析“一切”,并不意味着我们应该将其扔到求解器中(或者这样做),而我过去的一些问题也反映了类似的POV。 我尚未完成课程,我可能会很快提这个问题,但是我只是想不出这个“为什么”的想法,而是想尽我所能来理解它。 18 machine-learning multiple-regression large-data
2 有多个类别变量时对Beta的解释 我理解是分类变量等于0(或参考组)时的均值的概念,最终解释为回归系数是两个类别的均值之差。即使有> 2个类别,我也会假设每个解释该类别的均值和参考之间的差异。β^0β^0\hat\beta_0β^β^\hat\beta 但是,如果将更多变量引入多变量模型,该怎么办?现在,截距是什么意思,意味着它不能作为两个分类变量的参考?例如性别(M(参考)/ F)和种族(白人(参考)/黑人)都在模型中。是平均仅为白人男性?一个人如何解释其他可能性?β^0β^0\hat\beta_0 作为单独的注释:对比声明是否可作为一种方法来研究效果修改?还是只是看到不同级别的效果()?β^β^\hat\beta 18 multiple-regression categorical-data interpretation regression-coefficients contrast
1 在多元回归中如何处理预测变量之间的高度相关性? 我在类似这样的文章中找到了参考: 根据Tabachnick&Fidell(1996),双变量相关性大于.70的自变量不应包含在多元回归分析中。 问题:我在多元回归设计中使用了3个> .80的变量,VIF在.2-.3左右,公差〜4-5。我不能排除其中的任何变量(重要的预测变量和结果)。当我对两个相关系数为.80的结果进行回归分析时,它们均保持显着性,每个预测重要方差,并且在包含的所有10个变量中,这两个变量具有最大的部分和半部分的相关系数(5个对照组)。 问题:尽管相关性很高,我的模型仍然有效吗?任何引用都非常欢迎! 感谢您的回答! 我没有使用Tabachnick和Fidell作为准则,而是在一篇涉及预测变量之间高共线性的文章中找到了此参考。 因此,基本上,对于模型中预测变量的数量,我的案例太少了(许多分类的,伪编码的控制变量-年龄,任期,性别等)-72个案例中的13个变量。所有控件都在其中时,条件索引为〜29,而没有控件时则为〜23(5个变量)。 我不能删除任何变量或使用阶乘分析来组合它们,因为从理论上讲,它们具有自身的意义。现在获取更多数据为时已晚。由于我是在SPSS中进行分析的,因此也许最好是找到岭回归的语法(尽管我以前没有做过,对结果的解释对我来说是新的)。 如果很重要,当我进行逐步回归时,相同的2个高度相关的变量仍然是结果的唯一重要预测指标。 而且我仍然不明白这些变量中每个变量的偏相关性是否重要,这可以解释为什么我将它们保留在模型中(以防无法进行岭回归)。 您是否会说“回归诊断:确定共线性的影响数据和来源/ David A. Belsley,Edwin Kuh和Roy E. Welsch,1980”将有助于理解多重共线性?还是其他参考可能有用? 18 correlation multiple-regression multicollinearity partial-correlation
2 添加的变量图(部分回归图)在多元回归中有什么解释? 我有一个电影数据集模型,并使用了回归: model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) library(ggplot2) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) 给出了输出: 现在,我第一次尝试使用名为“添加的变量图”的方法,得到以下输出: car::avPlots(model, id.n=2, id.cex=0.7) 问题是我试图使用google理解添加的变量图,但是我无法理解它的深度,看到该图我理解了它基于与输出相关的每个输入变量的偏斜表示。 我能否获得更多细节,例如其如何证明数据规范化? 18 regression data-visualization multiple-regression scatterplot
2 测试系数之间的显着差异的正确方法是什么? 我希望有人能帮我解决一些困惑。假设我要测试2组回归系数是否显着不同,并进行以下设置: yi=α+βxi+ϵiyi=α+βxi+ϵiy_i = \alpha + \beta x_i + \epsilon_i,具有5个独立变量。 2组,大小大致相等,(尽管可能有所不同)n1,n2n1,n2n_1, n_2 数以千计的相似回归将同时完成,因此必须进行某种形式的多重假设校正。 向我建议的一种方法是使用Z检验: Z=b1−b2(√SEb21+SEb22)Z=b1−b2(SEb12+SEb22)Z = \frac{b_1 - b_2}{\sqrt(SEb_1^2 + SEb_2^2)} 我在该板上看到的另一个建议是引入一个虚拟变量进行分组并将模型重写为: yi=α+βxi+δ(xigi)+ϵiyi=α+βxi+δ(xigi)+ϵiy_i = \alpha + \beta x_i + \delta(x_ig_i) + \epsilon_i,其中ggg是分组变量,编码为0、1。 我的问题是,这两种方法有何不同(例如做出不同的假设,灵活性)?一个比另一个合适吗?我怀疑这是非常基本的,但是任何澄清将不胜感激。 18 regression hypothesis-testing multiple-regression
4 如果我想要一个可解释的模型,除了线性回归之外还有其他方法吗? 我遇到了一些统计学家,他们从未使用线性回归以外的模型进行预测,因为他们认为诸如随机森林或梯度增强之类的“ ML模型”很难解释或“无法解释”。 在线性回归中,假设已验证一组假设(误差的正态性,同方差,无多重共线性),则t检验提供了一种检验变量重要性的方法,据我所知随机森林或梯度增强模型。 因此,我的问题是,是否要使用一组自变量来建模因变量,为了便于解释,我是否应该始终使用线性回归? 18 regression machine-learning multiple-regression model-interpretation
3 当输出和预测变量之间没有实质相关性时,如何获得良好的线性回归模型? 我使用一组变量/功能训练了线性回归模型。并且该模型具有良好的性能。但是,我已经意识到,没有与预测变量具有良好相关性的变量。这怎么可能? 17 regression machine-learning correlation multiple-regression linear-model
2 回归分析和曲线拟合之间的区别 有人可以向我解释回归分析和曲线拟合(线性和非线性)之间的实际差异,并举个例子吗? 似乎两者都试图找到两个变量(因变量与独立变量)之间的关系,然后确定与所提出的模型相关的参数(或系数)。例如,如果我有一组数据,例如: Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] 有人可以建议这两个变量之间的相关公式吗?我很难理解这两种方法之间的区别。如果您希望用其他数据集来支持您的答案,那是可以的,因为那似乎很难适应(也许仅对我而言)。 上面的数据集代表接收器工作特性(ROC)曲线的和y轴,其中y是真实的阳性率(TPR),x是错误的阳性率(FPR)。xxxyyyyyyxxx 我正在尝试拟合曲线,或者根据我最初的问题(还不确定)进行回归分析,以估计任何特定FPR的TPR(反之亦然)。 首先,在两个自变量(TPR和FPR)之间找到这样的曲线拟合函数在科学上是否可以接受? 第二,如果我知道实际否定案例和实际肯定案例的分布不正常,找到这样的函数在科学上是可以接受的吗? 17 regression multiple-regression fitting roc curve-fitting
2 如何在R中创建具有多个因变量的广义线性模型? 我有六个因变量(计数数据)和几个自变量,我看到在MMR中,脚本如下所示: my.model <- lm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn) 但是,由于我的数据是计数,因此我想使用广义线性模型,并尝试了以下方法: my.model <- glm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn, family="poisson") 并显示此错误消息: Error in glm.fit(x = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, : (subscript) logical subscript … 17 r generalized-linear-model multiple-regression
1 在设计的实验中,如何在ANOVA和ANCOVA之间进行选择? 我正在进行以下实验: DV:切片消耗(连续或分类) IV:健康消息,不健康消息,无消息(对照)(在其中随机分配了3个组的人员-分类)这是有关切片的健康性的可操纵消息。 以下IV可被视为个体差异变量: 冲动性(可以是分类的,即高与低或连续的,并通过标尺进行测量) 甜味偏爱(这也是通过问卷调查来衡量的,每个问题有3种选择) BMI-将对参与者进行相应的称重(也可以视为绝对或连续)。 由于将各组随机分配到3个组中的一个,因此我假设我正在进行某种ANOVA,并且可能会使用阶乘ANOVA,因为我对哪种IV对DV的影响最大,而且IV之间的相互作用也很感兴趣(如研究所示)某些组合之间存在关系。 但是由于需要知道IV最好是分类的,连续的还是混合的,我对此并不完全确定。 还是ANCOVA是一种可能性甚至是回归,但我不确定,因为将他们分配到了各个小组,然后根据他们对调查的回答进行了分类。 我希望这是有道理的,并希望能收到某人的询问。 17 anova multiple-regression continuous-data ancova
1 在多元线性回归中,为什么预测点的图不位于一条直线上? 我正在使用多元线性回归来描述Y与X1,X2之间的关系。 从理论上,我理解多元回归假设Y与每个X(Y和X1,Y和X2)之间存在线性关系。我没有使用X的任何转换。 因此,我得到的模型具有R = 0.45和所有显着X(P <0.05)。然后我针对X1绘制Y。我不明白为什么作为模型预测的红色圆圈没有形成一条线。正如我之前所说,我希望每对Y和X都由一条线拟合。 该图以这种方式在python中生成: fig, ax = plt.subplots() plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro'); ax.set_title('blue: true, red: OLS') ax.set_xlabel('X') ax.set_ylabel('Y') plt.show() 16 regression multiple-regression python linear
2 偏最小二乘法中的“偏”是什么? 在偏最小二乘回归(PLSR)或偏最小二乘结构方程模型(PLS-SEM)中,“偏偏”一词指的是什么? 16 multiple-regression least-squares terminology sem partial-least-squares
3 如何在多元回归中的预测变量之间划分r平方? 我刚刚读过一篇论文,其中的作者对两个预测变量进行了多元回归。总体r平方值为0.65。他们提供了一个表格,用于在两个预测变量之间划分r平方。该表如下所示: rsquared beta df pvalue whole model 0.65 NA 2, 9 0.008 predictor 1 0.38 1.01 1, 10 0.002 predictor 2 0.27 0.65 1, 10 0.030 在该模型中,R使用mtcars数据集运行时,总体r平方值为0.76。 summary(lm(mpg ~ drat + wt, mtcars)) Call: lm(formula = mpg ~ drat + wt, data = mtcars) Residuals: Min 1Q Median 3Q Max … 16 r multiple-regression r-squared importance variance-decomposition
3 将更多变量添加到多变量回归中是否会更改现有变量的系数? 假设我有一个由3个变量组成的多变量(几个独立变量)回归。这些变量中的每一个都有给定的系数。如果我决定引入第四个变量并重新运行回归,则三个原始变量的系数会改变吗? 更广泛地说:在多变量(多个独立变量)回归中,给定变量的系数是否受另一个变量的系数影响? 16 regression multiple-regression multivariable