Questions tagged «regression-coefficients»

回归模型的参数。最常见的是,将与自变量相乘的值以获得因变量的预测值。

3
当交互作用不显着时,如何解释主要作用?
我在R中运行了广义线性混合模型,并包括了两个预测变量之间的相互作用。交互作用并不显着,但主要影响(两个预测因素)均如此。现在,许多教科书示例告诉我,如果交互作用显着,则主要作用无法解释。但是,如果您的互动不重要怎么办? 我是否可以得出结论,这两个预测因素会对响应产生影响?还是在不进行交互的情况下运行新模型更好?我不想这样做,因为那样我就必须控制多个测试。

2
有多个类别变量时对Beta的解释
我理解是分类变量等于0(或参考组)时的均值的概念,最终解释为回归系数是两个类别的均值之差。即使有> 2个类别,我也会假设每个解释该类别的均值和参考之间的差异。β^0β^0\hat\beta_0β^β^\hat\beta 但是,如果将更多变量引入多变量模型,该怎么办?现在,截距是什么意思,意味着它不能作为两个分类变量的参考?例如性别(M(参考)/ F)和种族(白人(参考)/黑人)都在模型中。是平均仅为白人男性?一个人如何解释其他可能性?β^0β^0\hat\beta_0 作为单独的注释:对比声明是否可作为一种方法来研究效果修改?还是只是看到不同级别的效果()?β^β^\hat\beta

3
如何计算逻辑回归系数的标准误差
我正在使用Python的scikit-learn来训练和测试逻辑回归。 scikit-learn返回自变量的回归系数,但不提供系数的标准误差。我需要这些标准误差来为每个系数计算Wald统计量,然后依次将这些系数进行比较。 我发现了一种关于如何计算逻辑回归系数的标准误差的描述(此处),但是很难理解。 如果您碰巧知道有关如何计算这些标准误差的简单明了的解释,并且/或者可以为我提供一个简单的解释,我将不胜感激!我并不是指特定的代码(尽管请随意发布任何可能有用的代码),而是对所涉及步骤的算法解释。

2
用R计算对数回归的系数
在多元线性回归中,可以通过以下公式找出系数。 b = (X′X)− 1(X′)Yb=(X′X)-1个(X′)ÿb = (X'X)^{-1}(X')Y beta = solve(t(X) %*% X) %*% (t(X) %*% Y) ; beta 例如: > y <- c(9.3, 4.8, 8.9, 6.5, 4.2, 6.2, 7.4, 6, 7.6, 6.1) > x0 <- c(1,1,1,1,1,1,1,1,1,1) > x1 <- c(100,50,100,100,50,80,75,65,90,90) > x2 <- c(4,3,4,2,2,2,3,4,3,2) > Y <- as.matrix(y) > X …

1
多元回归系数的标准误差?
我意识到这是一个非常基本的问题,但是我在任何地方都找不到答案。 我正在使用正态方程或QR分解计算回归系数。如何计算每个系数的标准误差?我通常认为标准错误的计算方式如下: SEx¯ =σx¯n√SEx¯ =σx¯nSE_\bar{x}\ = \frac{\sigma_{\bar x}}{\sqrt{n}} 什么是的每个系数?在OLS上下文中最有效的计算方法是什么?σx¯σx¯\sigma_{\bar x}

1
如何处理LASSO中的分类预测变量
我运行的LASSO具有一些分类变量预测变量和一些连续变量预测变量。我对分类变量有疑问。我了解的第一步是将它们分成假人,对它们进行标准化以进行公平的惩罚,然后回归。处理虚拟变量有几种选择: 包括每个因素中除一个假人以外的所有假人,将其作为参考水平。虚拟系数的解释是相对于排除的“参考”类别而言的。截距现在是参考类别的平均响应。 将每个因素中的变量分组,以便将它们全部排除或全部排除。我相信这就是@Glen_b 在这里建议的内容: 通常,是的,您将所有因素放在一起。有几个R软件包可以做到这一点,包括glmnet 包括各个层面,如经@Andrew中号建议在这里: 您可能还需要更改默认的对比功能,默认情况下,该功能不使用每个因子的一个级别(处理编码)。但是由于套索罚分,对于可识别性而言,这不再是必需的,并且实际上使所选变量的解释更加复杂。为此,请设置 contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy')) 现在,无论选择了哪个因子水平,您都可以认为它暗示着这些特定水平相对于所有省略的水平都很重要。在机器学习中,我已经看到这种编码称为“单热编码”。 问题: 在每种方法下,截距和系数的解释是什么? 选择其中之一需要考虑哪些因素? 我们是否要对虚拟系数进行缩放,然后将其解释为从关到开的变化?

2
如何处理R中的错误,例如“系数:14由于奇异而未定义”?
当执行GLM时,在方差分析输出中出现“由于奇异而未定义”错误,如何抵消这种错误的发生? 有人认为这是由于协变量之间的共线性或数据集中不存在其中一个级别(请参阅:在lm中解释“由于奇异而未定义”) 如果我想看看这“特殊治疗”驱动模式,我有4个级别的待遇:Treat 1,Treat 2,Treat 3和Treat 4,这是记录在我的电子表格是:当Treat 1是1,其余都是零,如果Treat 2是1,其余都是零,等,我该怎么办?

1
有关如何归一化回归系数的问题
不确定normalize是否在此处使用正确的词,但是我会尽力说明我要问的问题。这里使用的估计量是最小二乘。 假设有Ŷ = β 0 + β 1 X 1y=β0+β1x1y=\beta_0+\beta_1x_1,则可以通过居中围绕平均值Ŷ = β ' 0 + β 1 X ' 1y=β′0+β1x′1y=\beta_0'+\beta_1x_1',其中β ' 0 = β 0 + β 1 ˉ X 1β′0=β0+β1x¯1\beta_0'=\beta_0+\beta_1\bar x_1和X ' 1 = X - ˉ Xx′1=x−x¯x_1'=x-\bar x,使β ' 0β′0\beta_0'不再对估计任何影响β 1β1\beta_1。 我的意思是β 1在Ŷ = β 1 X ' …

1
两个回归系数之比的无偏估计量?
假设你适合的线性/对数回归,具有的无偏估计的目的一个1g(y)=a0+a1⋅x1+a2⋅x2g(y)=a0+a1⋅x1+a2⋅x2g(y) = a_0 + a_1\cdot x_1 + a_2\cdot x_2。您是非常有信心,无论一个1和一个2相对于他们的估计噪声非常积极的。a1a2a1a2\frac{a_1}{a_2}a1a1a_1a2a2a_2 如果你有联合协,你可以计算出,或至少模拟了答案。有没有更好的方法,在现实生活中有大量数据的问题中,您在采用估计比率或半步并假设系数独立时会遇到多少麻烦?a1,a2a1,a2a_1, a_2


5
我可以忽略线性模型中非重要因素水平的系数吗?
在这里寻求关于线性模型系数的澄清之后,我有一个关于因子水平系数的非有效值(高p值)的后续问题。 示例:如果我的线性模型包含一个具有10个水平的因子,并且其中只有3个水平具有与之相关的显着p值,那么当使用该模型预测Y时,如果受试者属于以下情况之一,我可以选择不包括系数项:非重要级别? 更彻底地讲,将7个不重要的级别合并为一个级别并重新分析是错误的吗?

2
回归到“思考,快速和慢速”中的均值
丹尼尔·卡尼曼(Daniel Kahneman)在《快与慢的思考》中提出了以下假设问题: (第186页)朱莉目前在州立大学任教。她四岁时能流利阅读。她的平均成绩(GPA)是多少? 他的目的是说明在做出有关某些统计数据的预测时,我们通常如何无法解释均值的回归。在随后的讨论中,他建议: (第190页)回想一下,在当前案例中,阅读年龄和GPA两项测量之间的相关性等于决定因素中共享因素的比例。您对该比例的最佳猜测是什么?我最乐观的猜测是大约30%。假定此估计,我们将需要产生一个无偏预测。以下是通过四个简单步骤到达那里的说明: 首先估算平均GPA。 确定符合您对证据印象的GPA。 估计阅读早熟与GPA之间的相关性。 如果相关系数是0.30,则将平均值的30%距离移到匹配的GPA。 我对他的建议的解释如下: 使用“她四岁时能流利阅读”为朱莉的阅读早熟建立标准分数。 确定具有相应标准分数的GPA。(如果 GPA和阅读早熟之间的相关性是完美的,则可以预测的合理GPA将与此标准分数相对应。) 估计GPA差异的百分比可以通过阅读早熟的差异来解释。(在这种情况下,我假设他指的是“相关”的确定系数?) 由于朱莉的阅读早熟标准分数的只有30%可以由解释她的GPA标准分数的因素来解释,因此我们仅有理由预测朱莉的GPA标准分数将是该分数的30%在完全相关的情况下。 我对卡尼曼程序的解释正确吗?如果是这样,他的程序是否有更正式的数学证明,尤其是步骤4?通常,两个变量之间的相关性与其标准分数的变化/差异之间是什么关系?

3
逻辑回归系数有含义吗?
我有几个功能的二进制分类问题。(正规化的)逻辑回归的系数是否具有可解释的含义? 考虑到这些功能已预先标准化,我认为它们可以表明影响的大小。但是,在我的问题中,系数似乎敏感地取决于我选择的特征。甚至系数的符号也会随着选择为输入的不同特征集而变化。 检查系数的值是否有意义,找到最有意义的系数并用词表示其含义的正确方法是什么?某些拟合模型及其系数的符号是​​否错误-即使它们对数据进行排序也是如此? (我在要素之间具有的最高相关性仅为0.25,但这肯定起了作用吗?)

1
回归系数和部分回归系数有什么区别?
我在阿卜迪(2003)中读到 当自变量成对正交时,通过计算此自变量与因变量之间的回归斜率,可以评估它们各自在回归中的作用。在这种情况下(即IV的正交性),部分回归系数等于回归系数。在所有其他情况下,回归系数将与部分回归系数不同。 但是,该文档先前并未解释这两种回归系数之间的区别。 Abdi,H.(2003年)。偏回归系数。在Lewis-Beck M.,Bryman,A.,Futing T.(编)(2003年)《社会科学百科全书:研究方法》中。加利福尼亚州千橡市:SAGE出版物。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.