Questions tagged «least-squares»

指选择参数值以最小化两个量(例如变量的观测值)和该观测值的期望值取决于参数值之间的平方差的一般估计技术。高斯线性模型由最小二乘法拟合,而最小二乘则是使用均方误差(MSE)作为评估估计量的基础。

1
高斯模型中最小二乘和MLE之间的等价关系
我是机器学习的新手,并且正在尝试自己学习。最近,我正在阅读一些讲义,并提出了一个基本问题。 幻灯片13表示“最小二乘估计与高斯模型下的最大似然估计相同”。看来这很简单,但我看不到这一点。有人可以解释一下这是怎么回事吗?我对看数学感兴趣。 稍后我将尝试查看Ridge和Lasso回归的概率观点,因此,如果有任何建议对我有帮助,也将不胜感激。

2
截距和斜率的OLS估计量之间的相关性
在简单的回归模型中 y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, OLS估计量和是相关的。ββ^OLS0β^0OLS\hat{\beta}_0^{OLS}β^OLS1β^1OLS\hat{\beta}_1^{OLS} 两个估计量之间的相关性公式为(如果我正确推导得出的话): Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr⁡(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. 问题: 关于相关性的直观解释是什么? 相关性的存在是否有任何重要含义? 编辑了该帖子,并删除了相关性随样本大小消失的断言。(感谢@whuber和@ChristophHanck。)


1
线性回归预测区间
如果我的数据点的最佳线性近似(使用最小二乘)是线,如何计算近似误差?如果我计算观察值和预测值之间的差异的标准偏差,我以后可以说真实(但未观察到)的值属于区间假设正态分布()的概率约为68%?e i = r e a l (x i)− (m x i + b )y r = r e a l (x 0)[ y p - σ ,y p + σy=mx+by=mx+by=mx+bei=real(xi)−(mxi+b)ei=real(xi)−(mxi+b)e_i=real(x_i)-(mx_i+b)yr=real(x0)yr=real(x0)y_r=real(x_0)y p = m x 0 + b[yp−σ,yp+σ][yp−σ,yp+σ][y_p-\sigma, y_p+\sigma]yp=mx0+byp=mx0+by_p=mx_0+b 澄清: 我对函数进行了观察,评估结果为点。我将这些观察值拟合为。对于我没有观察到的,我想知道 有多大。使用上述方法,中的是正确的。〜68%?X 我升(X )= 米X + b X 0 ˚F …


6
为什么在拟合模型时通常选择最小化平方误差之和(SSE)?
问题很简单:为什么当我们尝试将模型拟合到线性或非线性数据时,我们通常会尝试最小化误差平方和以获得模型参数的估计量吗?为什么不选择其他一些目标函数来最小化?我了解,由于技术原因,二次函数比其他函数(例如,绝对偏差之和)更好。但这仍然不是一个很令人信服的答案。除了这个技术原因之外,为什么人们特别赞成这种“欧几里得类型”的距离函数?是否有特定的含义或解释? 我的想法背后的逻辑如下: 当有了数据集时,首先要通过建立一组功能或分布假设(例如,某个时刻条件,而不是整个分布)来建立模型。在您的模型中,有一些参数(假设它是一个参数模型),那么您需要找到一种方法来一致地估计这些参数,并且希望您的估计器具有低方差和一些其他好的属性。无论您最小化SSE或LAD还是其他一些目标函数,我都认为它们只是获得一致估计量的不同方法。按照这种逻辑,我认为人们使用的最小二乘必须为1)它会产生模型的一致估计量2)其他我不知道的东西。 在计量经济学中,我们知道在线性回归模型中,如果您假设误差项对预测变量的均值条件为0,并且均方差和误差互不相关,那么最小化平方误差之和将为您提供模型的一致估计参数和高斯-马尔可夫定理,这个估计是蓝色。因此,这表明如果选择最小化不是SSE的某些其他目标函数,则无法保证将获得模型参数的一致估计量。我的理解正确吗?如果正确,那么可以通过一致性来证明最小化SSE而不是其他一些目标函数,这是可以接受的,实际上,这比说二次函数更好是可以接受的。 在实践中,我实际上看到许多情况,人们直接最小化平方误差之和,而没有先明确指定完整模型,例如误差项的分布假设(矩假设)。然后在我看来,该方法的用户只是想看看数据在平方距离函数方面与“模型”的拟合程度如何(我使用引号,因为模型假设可能不完整)。 一个相关的问题(也与该网站有关)是:为什么当我们尝试使用交叉验证比较不同的模型时,我们是否再次使用SSE作为判断标准?即,选择具有最小SSE的模型?为什么没有其他标准?

3
多元回归中的“其他所有条件”是什么意思?
当我们这样做多元回归,说我们正在寻找在平均变化在一个变化的变量变量,保存了在其他变量不变,什么值,我们持有的其他变量不变?他们的意思是?零?有什么价值吗?ÿyyXxx 我倾向于认为它具有任何价值。只是在寻求澄清。如果有人有证明,那也将是一件好事。



2
F统计遵循F分布的证明
鉴于这个问题:证明OLS模型中的系数服从具有(nk)自由度的t分布 我很想知道为什么 F=(TSS−RSS)/(p−1)RSS/(n−p),F=(TSS−RSS)/(p−1)RSS/(n−p), F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)}, 其中是模型参数的数量,是观测值的数量,是总方差,是残差,遵循分布。Ñ Ť 小号小号ř 小号小号˚F p - 1 ,ñ - ppppnnnTSSTSSTSSRSSRSSRSSFp−1,n−pFp−1,n−pF_{p-1,n-p} 我必须承认,我什至没有尝试证明这一点,因为我不知道从哪里开始。

2
与PCA相比,SVD有什么优势吗?
我知道如何用数学方法计算PCA和SVD,并且我知道两者都可以应用于线性最小二乘回归。 从数学上讲,SVD的主要优点似乎是可以将其应用于非平方矩阵。 两者都集中在矩阵的分解上。除了提到的SVD的优势之外,使用SVD相对于PCA是否还有其他优势或见解?X⊤XX⊤XX^\top X 我真的是在寻找直觉,而不是任何数学上的差异。
20 pca  least-squares  svd 

2
选择LASSO变量后进行OLS有何意义?
最近,我发现在应用的计量经济学文献中,当处理特征选择问题时,通常会执行LASSO,然后使用所选变量进行OLS回归。 我想知道如何才能证明这种程序的有效性。会引起诸如变量遗漏之类的麻烦吗?有没有证据表明它更有效,或者结果更容易解释? 这里是一些相关的讨论: LASSO进行变量选择 使用套索/随机变量选择变量后使用树 如前所述,如果这样的程序总体上是不正确的,那么为什么还有如此多的研究呢?我可以说由于LASSO估算器的某些不可靠特性以及人们对OLS的偏爱,这只是一个经验法则,一个折衷的解决方案?

2
当我在回归中包含平方变量时会发生什么?
我从我的OLS回归开始: 其中D是虚拟变量,估计值与p值低的零不同。然后,我进行了Ramsey RESET测试,发现我对该方程有一些误称,因此我将平方x包括在内: ÿ = β 0 + β 1 X 1 + β 2 X 2 1 + β 3 d + εy=β0+β1x1+β2D+εy=β0+β1x1+β2D+ε y = \beta _0 + \beta_1x_1+\beta_2 D + \varepsilon y=β0+β1x1+β2x21+β3D+εy=β0+β1x1+β2x12+β3D+ε y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon 平方项解释了什么?(Y非线性增加?) 通过这样做,我的D估计值不再从零变化,而具有较高的p值。我如何解释方程式中的平方项(通常)? 编辑:改善问题。


6
最小二乘估计量方差中
如果XXX是满秩,逆X Ť XXTXX^TX存在并且我们得到的最小二乘估计:β = (X Ť X )- 1 X ÿβ^=(XTX)−1XY\hat\beta = (X^TX)^{-1}XY 和VAR (β)= σ 2(X Ť X )- 1Var(β^)=σ2(XTX)−1\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1} 我们如何在方差公式中直观地解释?推导技术对我来说很清楚。(X T X )− 1(XTX)−1(X^TX)^{-1}

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.