Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

3
Frisch-Waugh定理的效用
我应该教计量经济学的弗里什·沃夫定理,但我还没有研究过。 我已经了解了其背后的数学原理,也希望这个想法“如果您“消除”其他回归变量的影响,则从多重线性模型中为特定系数获得的系数等于简单回归模型的系数”。因此,理论上的想法有点酷。(如果我完全误解了,我欢迎您提出更正) 但是它有一些经典/实用用法吗? 编辑:我已经接受了一个答案,但仍然愿意有新的带来其他示例/应用程序。

2
影响功能和OLS
我试图了解影响功能是如何工作的。有人可以在简单的OLS回归中解释吗 yi=α+β⋅xi+εiÿ一世=α+β⋅X一世+ε一世\begin{equation} y_i = \alpha + \beta \cdot x_i + \varepsilon_i \end{equation} 在这里我想影响作用的ββ\beta。

5
如何计算线性回归与已知理论线之间是否具有统计学上的显着差异?
我有一些数据大致沿着直线拟合: 当我对这些值进行线性回归时,我得到一个线性方程: y=0.997x−0.0136y=0.997x−0.0136y = 0.997x-0.0136 在理想世界中,该等式应为。y=xy=xy = x 显然,我的线性值接近理想值,但不完全相同。我的问题是,如何确定此结果是否具有统计意义? 0.997的值是否明显不同于 1?-0.01 与0 显着不同吗?还是它们在统计上是相同的,我可以得出具有一定合理置信度的结论?y=xy=xy=x 我可以使用什么好的统计检验? 谢谢

5
为什么线性回归基于假设和输入数据点之间的垂直距离使用成本函数?
假设我们有输入(预测)数据和输出(响应)数据点A,B,C,D,E,并且我们希望通过这些点拟合一条线。这是一个简单的问题,可以说明问题,但也可以扩展到更高的维度。 问题陈述 当前最佳拟合或假设由上面的黑线表示。蓝色箭头()表示数据点与当前最佳拟合之间的垂直距离,方法是从该点绘制一条垂直线直至与该线相交。→→\color{blue}\rightarrow 绘制绿色箭头(),使其在相交点处垂直于当前假设,因此代表数据点与当前假设之间的最小距离。对于点A和点B,绘制一条垂直于当前最佳猜测的线,并且该线类似于垂直于x轴的线。对于这两点,蓝线和绿线重叠,但对于C,D和E点则不重叠。→→\color{green}\rightarrow 最小二乘原理通过在任何给定的训练周期中通过一条数据线(A,B,C,D或E)绘制一条垂直线到估计的假设()来定义线性回归的成本函数,并由表示→→\color{blue}\rightarrow CostFunction=∑Ni=1(yi−hθ(xi))2CostFunction=∑i=1N(yi−hθ(xi))2Cost Function = \sum_{i=1}^N(y_i-h_\theta(x_i))^2 这里代表数据点,代表最佳拟合。(xi,yi)(xi,yi)(x_i, y_i)hθ(xi)hθ(xi)h_\theta(x_i) 点(A,B,C,D或E)之间的最小距离由从该点到当前最佳猜测的垂直线(绿色箭头)表示。 最小二乘函数的目的是定义一个目标函数,当最小化该函数时,将使假设与所有组合点之间的距离最小,但不一定会使假设与单个输入点之间的距离最小。 **题** 我们为什么不将线性回归的成本函数定义为输入数据点与通过输入数据点的假设(由垂直于假设的直线定义)之间的最小距离,如()?→→\color{green}\rightarrow


2
为什么线性回归对残差有假设,而广义线性模型对响应有假设?
为什么线性回归和广义模型的假设不一致? 在线性回归中,我们假设残差来自高斯 在其他回归(逻辑回归,毒物回归)中,我们假设响应来自某种分布(二项式,泊松等)。 为什么有时会假设剩余而其他时间会在响应时?是因为我们要导出不同的属性? 编辑:我认为mark999的显示两种形式是相等的。但是,我对iid还有其他疑问: 我的另一个问题 是,逻辑回归是否有iid假设?显示广义线性模型没有iid假设(独立但不相同) 对于线性回归,是否真的成立,如果我们对残差进行假设,我们将有iid,但是如果对响应进行假设,我们将拥有独立但不相同的样本(具有不同不同高斯样本)?μμ\mu


2
给定两个线性回归模型,哪种模型效果更好?
我在学院上过机器学习课程。在其中一项测验中,有人问了这个问题。 模型1:y=θx+ϵy=θx+ϵ y = \theta x + \epsilon 模型2:y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon 以上哪个模型更适合数据?(假设数据可以使用线性回归建模) 正确的答案(根据教授)是,两个模型的性能都一样好。但是我相信第一个模型会更合适。 这就是我回答背后的原因。第二个模型,其可以被重写为,α = θ + θ 2将不一样的第一模型。α事实上是一个抛物线,因此具有一个最小值(- 0.25在这种情况下)。因此,第一模型中的θ的范围大于第二模型中的α的范围。因此,如果数据是这样的,最适合的有坡度小于- 0.25,所述第二模式将非常差相比于第一个作为执行。但是,如果最佳拟合的斜率大于αx+ϵαx+ϵ \alpha x + \epsilon α=θ+θ2α=θ+θ2\alpha = \theta + \theta^2αα\alpha−0.25−0.25 -0.25 θθ \theta αα \alpha −0.25−0.25-0.25,两个模型的性能相同。−0.25−0.25-0.25 那么第一个比较好,还是两者完全一样?

4
为什么
注意:SSTSSTSST =总和的平方和,SSESSESSE =误差平方和,SSRSSRSSR =回归平方和。标题中的等式通常写为: ∑我=1ñ(y一世-ÿ¯)2= ∑我= 1ñ(y一世- ÿ^一世)2+ ∑我= 1ñ(y^一世- ÿ¯)2∑一世=1个ñ(ÿ一世-ÿ¯)2=∑一世=1个ñ(ÿ一世-ÿ^一世)2+∑一世=1个ñ(ÿ^一世-ÿ¯)2\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2 问题很简单,但我正在寻找一个直观的解释。直观地说,在我看来,像会更有意义。例如,假设点X 我已对应的y值ÿ 我 = 5和ÿ我 = 3,其中ÿ我是关于回归线的对应点。还假定对于该数据集的平均值y值是ˉ Ŷ小号小号Ť≥S小号Ë+SSRSST≥SSE+SSRSST\geq SSE+SSRxixix_iyi=5yi=5y_i=5y^i=3y^i=3\hat y_i=3y^iy^i\hat y_i。那么对于这个特定点我, Sy¯=0y¯=0\bar y=0,而小号小号Ë = (5 - 3 )2 = 2 2 = 4和小号小号- [R = (3 - 0 )2 = 3 2 …

2
如何平滑数据并强制单调性
我有一些要平滑的数据,以使平滑点单调递减。我的数据急剧下降,然后开始稳定。这是使用R的示例 df <- data.frame(x=1:10, y=c(100,41,22,10,6,7,2,1,3,1)) ggplot(df, aes(x=x, y=y))+geom_line() 我可以使用什么好的平滑技术?另外,如果我可以强制第一个平滑点接近观察点,那就太好了。


1
为什么混合效应模型可以解决依赖关系?
假设我们对学生考试成绩如何受到这些学生学习时间的影响感兴趣。为了探究这种关系,我们可以运行下面的线性回归: exam.gradesi=a+β1×hours.studiedi+eiexam.gradesi=a+β1×hours.studiedi+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + e_i 但是,如果我们从几所不同的学校对学生进行抽样调查,我们可能期望同一所学校的学生比来自不同学校的学生彼此更相似。为了解决此依赖性问题,许多教科书/网络上的建议是运行混合效果并以随机效果进入学校。因此,该模型将成为: exam.gradesi=a+β1×hours.studiedi+schoolj+eiexam.gradesi=a+β1×hours.studiedi+schoolj+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i 但为什么这个解决依赖问题存在于线性回归? 请回应,就像您正在与12岁的孩子聊天一样

2
GLM:验证分发和链接功能的选择
我有一个采用高斯分布和对数链接函数的广义线性模型。拟合模型后,我检查残差:QQ图,残差与预测值,残差的直方图(确认需要格外小心)。一切看起来都很好。(对我而言)这似乎表明,选择高斯分布非常合理。或者至少,残差与我在模型中使用的分布一致。 问题1:声明它能验证我的发行选择是否太过分了? 我选择了一个日志链接函数,因为我的响应变量始终为正,但是我想要某种确认,它是一个不错的选择。 问题2:是否有任何测试可以支持我对链接功能的选择,例如检查残差以选择分布?(对我来说,选择链接功能似乎有些武断,因为我可以找到的唯一指导是非常模糊和动摇的,大概是出于充分的理由。)

1
从exp(系数)到几率及其对数Logistic回归的解释
我根据SAT分数和家庭/种族背景对大学的录取率进行了线性回归。数据是虚构的。这是对先前已回答问题的跟进。这个问题的重点是在为简单起见而撇开SAT分数时收集和解释优势比的方法。 变量是Accepted(0或1)和Background(“红色”或“蓝色”)。我设置了数据,以便具有“红色”背景的人们更容易进入: fit <- glm(Accepted~Background, data=dat, family="binomial") exp(cbind(Odds_Ratio_RedvBlue=coef(fit), confint(fit))) Odds_Ratio_RedvBlue 2.5 % 97.5 % (Intercept) 0.7088608 0.5553459 0.9017961 Backgroundred 2.4480042 1.7397640 3.4595454 问题: 0.7是接受“蓝色”背景的人的比例吗?我之所以这样问是因为,Backgroundblue如果我改为运行以下代码,也会获得0.7的“ ”: fit <- glm(Accepted~Background-1, data=dat, family="binomial") exp(cbind(OR=coef(fit), confint(fit))) 甲Ç Ç é p 吨ë d / [R ë d :阿Ç Ç é p 吨ë d /乙升ù ë一种CCËpŤËd/[RËd:一种CCËpŤËd/乙升üË\rm …
14 r  regression  logistic 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.