Questions tagged «least-squares»

指选择参数值以最小化两个量(例如变量的观测值)和该观测值的期望值取决于参数值之间的平方差的一般估计技术。高斯线性模型由最小二乘法拟合,而最小二乘则是使用均方误差(MSE)作为评估估计量的基础。

3
Frisch-Waugh定理的效用
我应该教计量经济学的弗里什·沃夫定理,但我还没有研究过。 我已经了解了其背后的数学原理,也希望这个想法“如果您“消除”其他回归变量的影响,则从多重线性模型中为特定系数获得的系数等于简单回归模型的系数”。因此,理论上的想法有点酷。(如果我完全误解了,我欢迎您提出更正) 但是它有一些经典/实用用法吗? 编辑:我已经接受了一个答案,但仍然愿意有新的带来其他示例/应用程序。

2
影响功能和OLS
我试图了解影响功能是如何工作的。有人可以在简单的OLS回归中解释吗 yi=α+β⋅xi+εiÿ一世=α+β⋅X一世+ε一世\begin{equation} y_i = \alpha + \beta \cdot x_i + \varepsilon_i \end{equation} 在这里我想影响作用的ββ\beta。

4
为什么
注意:SSTSSTSST =总和的平方和,SSESSESSE =误差平方和,SSRSSRSSR =回归平方和。标题中的等式通常写为: ∑我=1ñ(y一世-ÿ¯)2= ∑我= 1ñ(y一世- ÿ^一世)2+ ∑我= 1ñ(y^一世- ÿ¯)2∑一世=1个ñ(ÿ一世-ÿ¯)2=∑一世=1个ñ(ÿ一世-ÿ^一世)2+∑一世=1个ñ(ÿ^一世-ÿ¯)2\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2 问题很简单,但我正在寻找一个直观的解释。直观地说,在我看来,像会更有意义。例如,假设点X 我已对应的y值ÿ 我 = 5和ÿ我 = 3,其中ÿ我是关于回归线的对应点。还假定对于该数据集的平均值y值是ˉ Ŷ小号小号Ť≥S小号Ë+SSRSST≥SSE+SSRSST\geq SSE+SSRxixix_iyi=5yi=5y_i=5y^i=3y^i=3\hat y_i=3y^iy^i\hat y_i。那么对于这个特定点我, Sy¯=0y¯=0\bar y=0,而小号小号Ë = (5 - 3 )2 = 2 2 = 4和小号小号- [R = (3 - 0 )2 = 3 2 …

3
推导OLS估计量的假设
有人可以为我简要解释一下,为什么要计算OLS估计量需要六个假设中的每一个?我只发现了多重共线性-如果存在多重共线性,则无法求反(X'X)矩阵,进而无法估计总体估计量。其他的怎么样(例如,线性度,零均值误差等)?

1
线性模型中的R平方与广义线性模型中的偏差成正比?
这是我针对这个问题的上下文:据我所知,使用加权数据和数据survey包时,我们无法在R中运行普通的最小二乘回归。在这里,我们必须使用svyglm(),而不是运行一个广义线性模型(可能是同一件事?在这里我不清楚什么是不同的)。 在OLS中,通过该lm()函数,它可以计算R平方值,我确实理解其解释。但是,svyglm()似乎并没有计算出这个误差,而是给了我一个偏差,我在互联网上的短暂旅行告诉我,这是一种拟合优度度量,其解释与R平方不同。 所以我想我基本上有两个我希望得到指导的问题: 为什么survey似乎无法在Stata中使用加权数据来在包中运行OLS ? 广义线性模型的偏差和r平方值在解释上有什么区别?


1
NumPy如何解决不确定系统的最小二乘问题?
假设我们有形状为(2,5)的X和形状为(2,)的 y 这有效: np.linalg.lstsq(X, y) 我们希望只有在X的形状为(N,5)且N> = 5的情况下,此方法才起作用。 我们确实获得了预期的5倍权重,但是该问题如何解决? 就像我们有2个方程和5个未知数吗? numpy如何解决这个问题? 它必须执行类似插值的操作才能创建更多的人工方程式吗?

4
带有延迟和时间序列的多元线性回归之间的“机械”区别是什么?
我是商业和经济学专业的毕业生,目前正在攻读数据工程硕士学位。在研究线性回归(LR)然后进行时间序列分析(TS)时,我想到了一个问题。为什么要创建一种全新的方法,即时间序列(ARIMA),而不是使用多元线性回归并向其添加滞后变量(使用ACF和PACF确定滞后的顺序)?所以老师建议我写一篇关于这个问题的文章。我不会徒劳地寻求帮助,所以我做了关于该主题的研究。 我已经知道使用LR时,如果违反了高斯-马尔可夫假设,则OLS回归是不正确的,并且在使用时间序列数据(自相关等)时会发生这种情况。(与此有关的另一个问题是,一个通用汽车假设是自变量应该是正态分布的?还是仅以自变量为条件的因变量?) 我也知道,当使用分布式滞后回归(这是我在这里提出的建议)并使用OLS估计参数时,变量之间的多重共线性可能(显然)会出现,因此估计将是错误的。 在关于TS和LR的类似帖子中,@ IrishStat说: ...回归模型是传递函数模型的一种特殊情况,也称为动态回归模型或XARMAX模型。重点是在时间序列中进行模型识别,即适当的差异,适当的X滞后,适当的ARIMA结构,适当的未确定的确定性结构的识别,例如脉冲,水平移动,本地时间趋势,季节性脉冲和合并必须考虑参数变化或误差变化。 (我也在Autobox中阅读了他关于Box Jenkins vs LR的论文。)但这仍然不能解决我的问题(或者至少没有为我澄清RL和TS的不同机制)。 显然,即使存在滞后变量,OLS也会出现问题,而且效率不高也不正确,但是如果使用最大可能性,这些问题是否还会持续存在?我已经读过ARIMA是通过最大似然估计的,因此,如果使用ML而不是OLS估计带有滞后的LR,它是否会产生“正确”的系数(让我们假设还包括滞后误差项,例如阶次MA) q)。 简而言之,是OLS问题吗?应用ML是否解决了问题?

3
执行线性回归,但强制求解通过一些特定数据点
我知道如何对一组点执行线性回归。也就是说,我知道如何将自己选择的多项式拟合到给定的数据集(从LSE的角度来看)。但是,我不知道的是如何迫使我的解决方案经过我选择的某些特定要点。我之前已经看过这件事,但是我不记得该过程叫什么,更不用说它是如何完成的了。 作为一个非常简单而具体的示例,让我们说我在xy平面上散布了100个点,我选择通过它们拟合任意阶多项式。我知道如何很好地执行此线性回归。但是,让我们说我想“强制”解决方案,例如,通过x坐标,和x = 89的三个数据点(及其对应的y坐标)当然)。x = 19 x = 89x = 3x=3x=3x = 19x=19x=19x = 89x=89x=89 这个通用程序叫什么,它是如何完成的,还有什么我需要注意的陷阱吗? 编辑: 我想补充一点,我正在寻找一种具体的方法来做到这一点。我编写了一个程序,该程序实际上以两种方式之一进行线性回归,即直接或通过梯度下降来反转协方差矩阵。我要问的是,究竟是如何逐步地修改我所做的事情,以使多项式解经过特定点? 谢谢!


3
为什么高阶多项式有大系数
在Bishop的机器学习书中,它讨论了将多项式函数曲线拟合到一组数据点的问题。 令M为多项式拟合的阶数。它指出 我们看到,随着M的增加,系数的大小通常会变大。特别是对于M = 9的多项式,通过产生较大的正值和负值,系数已经微调到数据,因此相应的多项式函数恰好与每个数据点匹配,但与数据点之间(尤其是在数据点的末端附近)匹配范围)功能显示出较大的振荡。 我不明白为什么大值意味着更紧密地拟合数据点。我认为这些值会在小数点后变得更精确,而不是为了更好地拟合。

3
线性回归:是否有任何非正态分布给出OLS和MLE的身份?
这个问题的灵感来自长期的评论讨论: 线性回归如何使用正态分布? 在通常的线性回归模型中,为了简单此处写入只有一个预测器: ÿ一世= β0+ β1个X一世+ ϵ一世Yi=β0+β1xi+ϵi Y_i = \beta_0 + \beta_1 x_i + \epsilon_i 其中X一世xix_i是已知的常数,ϵ一世ϵi\epsilon_i是零均值独立误差项。如果我们除了承担的误差正态分布,则通常的最小二乘估计和最大似然估计β0,β1个β0,β1\beta_0, \beta_1是相同的。 因此,我的问题很简单:误差项是否存在其他分布,以使mle与普通最小二乘方估计量相同?一种含义很容易显示,另一种则不然。

3
当参数向量为p维时,为什么在最小二乘回归中踪迹为?
在模型y=Xβ+ϵy=Xβ+ϵ{y} = X \beta + \epsilon,我们可以使用正态方程估算ββ\beta: β^=(X′X)−1X′y,β^=(X′X)−1X′y,\hat{\beta} = (X'X)^{-1}X'y,我们可以得到y^=Xβ^.y^=Xβ^.\hat{y} = X \hat{\beta}. 残差向量可通过 ϵ^=y−Xβ^=(I−X(X′X)−1X′)y=Qy=Q(Xβ+ϵ)=Qϵ,ϵ^=y−Xβ^=(I−X(X′X)−1X′)y=Qy=Q(Xβ+ϵ)=Qϵ,\hat{\epsilon} = y - X \hat{\beta} = (I - X (X'X)^{-1} X') y = Q y = Q (X \beta + \epsilon) = Q \epsilon, 其中Q=I−X(X′X)−1X′.Q=I−X(X′X)−1X′.Q = I - X (X'X)^{-1} X'. 我的问题是如何得出\ textrm {tr}(Q)= n-p的结论tr(Q)=n−p.tr(Q)=n−p.\textrm{tr}(Q) = …


1
自举标准误差和置信区间是否适合违反均等假设的回归?
如果在标准OLS回归中违反了两个假设(误差的正态分布,均方差),自举标准误差和置信区间是否是一种适当的替代方法,以获得关于回归系数的重要性的有意义的结果? 具有自举标准误差和置信区间的显着性测试是否仍可以“异方差”地“起作用”? 如果是,在这种情况下可以使用的适用置信区间(百分位数,BC,BCA)是多少? 最后,如果在这种情况下自举是合适的,那么需要阅读和引用哪些相关文献才能得出这个结论?任何提示将不胜感激!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.