Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

3
在多元回归模型中具有相关的预测变量有什么影响?
我在线性模型课程中了解到,如果两个预测变量相关,并且两个预测变量都包含在模型中,那么一个预测变量将是不重要的。例如,假设房屋的大小和卧室的数量是相关的。当使用这两个预测器预测房屋成本时,可以放弃其中一个,因为它们都提供了大量相同的信息。从直觉上讲,这是有道理的,但是我还有一些技术问题: 当仅在模型中包含一个或两个预测变量时,这种影响如何在回归系数的p值中体现出来? 通过在模型中包括两个预测变量或仅包含一个预测变量,如何影响回归系数的方差? 我怎么知道模型将选择不太重要的预测变量? 仅包含一个或两个预测变量如何改变我的预测成本的价值/差异?

2
如何模拟人工数据进行逻辑回归?
我知道我对逻辑回归的理解中缺少一些东西,非常感谢您的帮助。 据我所知,逻辑回归假设给定输入的结果为“ 1”的概率是通过逆逻辑函数传递的输入的线性组合。以下R代码对此进行了举例说明: #create data: x1 = rnorm(1000) # some continuous variables x2 = rnorm(1000) z = 1 + 2*x1 + 3*x2 # linear combination with a bias pr = 1/(1+exp(-z)) # pass through an inv-logit function y = pr > 0.5 # take as '1' if probability > 0.5 …




2
随机森林假设
我是随机森林的新手,所以我仍在努力解决一些基本概念。 在线性回归中,我们假设独立的观测值,恒定方差... 使用随机森林时,我们做出的基本假设/假设是什么? 就模型假设而言,随机森林和朴素贝叶斯之间的主要区别是什么?

5
OLS残差不呈正态分布时的回归
该站点上有多个主题讨论如何确定OLS残差是否渐近正态分布。这个极好的答案提供了另一种用R代码评估残差的正态性的方法。这是关于标准化残差和观察到的残差之间实际差异的另一讨论。 但是,可以说残差绝对不是正态分布的,如本例所示。在这里,我们有数千个观测值,显然我们必须拒绝正态分布残差假设。解决该问题的一种方法是采用某种形式的鲁棒估计器,如答案中所述。但是,我不仅限于OLS,实际上我想了解其他glm或非线性方法的好处。 违反残留假设的OLS正态性的数据建模的最有效方法是什么?或者至少应该是开发合理的回归分析方法的第一步?

4
什么是差异中的差异?
长期以来,差异一直作为非实验性工具而流行,尤其是在经济学中。有人可以对以下有关差异的问题提供清晰且非技术性的答案。 什么是差异估算器? 为什么使用差异中差异估算器? 我们真的可以相信差异差异估计吗?

3
Logistic回归的正则化方法
使用诸如Ridge,Lasso,ElasticNet之类的方法进行正则化对于线性回归非常普遍。我想了解以下内容:这些方法是否适用于逻辑回归?如果是这样,则将它们用于逻辑回归的方式是否存在任何差异?如果这些方法不适用,如何对逻辑回归进行正则化?



5
Logistic回归系数的意义是什么?
我目前正在阅读一篇有关2000年和2004年大选的投票地点和投票偏好的论文。其中有一个显示逻辑回归系数的图表。从几年前的课程和一点阅读开始我了解逻辑回归是描述多个自变量与二进制响应变量之间关系的一种方式。鉴于下表,我感到困惑的是,因为南方的对数回归系数为.903,这是否意味着90.3%的南方人投票支持共和党?由于度量的后勤性质,这种直接相关不存在。取而代之的是,我假设您只能说,以.903表示的南方对共和党的投票比对山地/平原的投票多,而回归值为.506。考虑到后者的情况,在这种逻辑回归系数的情况下,我怎么知道什么是重要的,什么不是,以及是否可以推断出一定比例的共和党选票。 附带说明,如果有任何不正确的陈述,请编辑我的帖子


2
在lm中以不同的方式编写交互作用术语?
我有一个问题,即在回归模型中指定交互的最佳方法是什么。考虑以下数据: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, …

1
回归:转换变量
转换变量时,是否必须使用所有相同的转换?例如,是否可以选择不同的转换变量,例如: 令为年龄,就业时间,居住时间和收入。x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) 或者,您是否必须与转换保持一致并使用所有相同的转换?如: Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 我的理解是,转型的目标是解决正常性问题。查看每个变量的直方图,我们可以看到它们呈现出非常不同的分布,这使我相信所需的转换在每个变量的基础上是不同的。 ## R Code df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T) hist(df[1:7]) log(xn+1)log⁡(xn+1)\log(x_n + 1)xnxnx_n000000 ## R Code plot(df[1:7])

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.