Questions tagged «least-squares»

指选择参数值以最小化两个量(例如变量的观测值)和该观测值的期望值取决于参数值之间的平方差的一般估计技术。高斯线性模型由最小二乘法拟合,而最小二乘则是使用均方误差(MSE)作为评估估计量的基础。

4
为什么普通最小二乘法的性能优于泊松回归?
我试图通过回归分析来解释城市每个地区的凶杀案数量。尽管我知道我的数据遵循泊松分布,但我尝试像这样拟合OLS: log(y+1)=α+βX+ϵlog(y+1)=α+βX+ϵlog(y+1) = \alpha + \beta X + \epsilon 然后,我也尝试了(当然!)泊松回归。问题是我在OLS回归中有更好的结果:伪较高(0.71对0.57),RMSE也较高(3.8对8.88。标准化以具有相同的单位)。R2R2R^2 为什么?正常吗 无论数据分布如何,使用OLS都有什么问题? 编辑 根据kjetil b halvorsen等人的建议,我通过两个模型拟合了数据:OLS和负二项式GLM(NB)。我从拥有的所有功能开始,然后递归地逐一删除了不重要的功能。OLS是 crimearea−−−−√=α+βX+ϵcrimearea=α+βX+ϵ\sqrt{\frac{crime}{area}} = \alpha + \beta X + \epsilon 权重=。areaareaarea summary(w <- lm(sqrt(num/area) ~ RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area …

1
LOOCV公式的证明
根据James等人的《统计学习入门》,留一法交叉验证(LOOCV)估计值定义为 其中。CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2 没有证据,方程式(5.2)指出,对于最小二乘或多项式回归(我是否只适用于仅对一个变量进行回归), 其中“为在从原来的最小二乘个拟合值拟合(不知道的方式这意味着什么,,它使用意味着所有数据集?点)和是杠杆作用”,这是由定义ÿ我我CV(n)=1n∑i=1n(yi−y^i1−hi)2CV(n)=1n∑i=1n(yi−y^i1−hi)2\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\left(\dfrac{y_i - \hat{y}_i}{1-h_i}\right)^2y^iy^i\hat{y}_iiiihihih_ihi=1n+(xi−x¯)2∑j=1n(xj−x¯)2.hi=1n+(xi−x¯)2∑j=1n(xj−x¯)2.h_i = \dfrac{1}{n}+\dfrac{(x_i - \bar{x})^2}{\sum\limits_{j=1}^{n}(x_j - \bar{x})^2}\text{.} 如何证明这一点? 我的尝试:首先可以注意到 但分开由此(如果我还记得,公式仅适用于简单的线性回归...),我不确定如何从此处继续。ħ我y^i=β0+∑i=1kβkXk+some polynomial terms of degree ≥2y^i=β0+∑i=1kβkXk+some polynomial terms of degree ≥2\hat{y}_i = \beta_0 + \sum\limits_{i=1}^{k}\beta_k X_k + \text{some polynomial terms of degree }\geq 2hihih_i

1
MLE与拟合概率分布中的最小二乘
根据我读过的几篇论文,书籍和文章,给我的印象是,将概率分布拟合到一组数据上的推荐方法是使用最大似然估计(MLE)。但是,作为物理学家,一种更直观的方法是仅使用最小二乘法将模型的pdf与数据的经验pdf拟合。那么为什么MLE在拟合概率分布上比最小二乘更好?有人可以指出我要回答该问题的科学论文/书吗? 我的直觉是因为MLE没有假定噪声模型,而经验pdf中的“噪声”是异方差的,不是正常的。

3
为什么不使用“正规方程”来找到简单的最小二乘系数呢?
我在这里看到了这个列表,简直不敢相信有这么多方法可以求解最小二乘。对“正规方程” 维基百科似乎是一个相当简单的方法 α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1ñ(X一世-X¯)(ÿ一世-ÿ¯)∑一世=1个ñ(X一世-X¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} 那么为什么不仅仅使用它们呢?考虑到Mark L.上面的第一个链接,我认为一定存在计算或精度问题。Stone提到SVD或QR是统计软件中流行的方法,并且正常方程式“从可靠性和数值精度的角度来看很麻烦”。但是,在下面的代码中,与三个流行的python函数相比,正则方程使我的精度达到了〜12个小数位:numpy的polyfit;西皮的罪过 ; 和scikit-learn的LinearRegression。 更有意思的是,当n = 100000000时,法线方程法最快。polyfit为12.9s;用于线性回归的4.2s;对于标准方程式为1.8秒。 码: import numpy as np from sklearn.linear_model import LinearRegression from scipy.stats import linregress import timeit b0 = 0 b1 = 1 n = 100000000 …

1
Logistic回归中的遗漏变量偏差与普通最小二乘回归中的遗漏变量偏差
我有一个关于逻辑回归和线性回归中忽略的变量偏差的问题。 说我省略了线性回归模型中的一些变量。假设那些省略的变量与我包含在模型中的变量不相关。这些遗漏的变量不会使我的模型中的系数产生偏差。 但是在逻辑回归中,我才知道这不是真的。即使省略的变量与包含的变量不相关,省略的变量也会使包含的变量的系数产生偏差。我找到了有关该主题的论文,但无法做出正面或反面的结论。 这是论文和一些幻灯片。 偏差显然总是朝着零。谁能解释这是如何工作的?

4
和F检验之间有什么关系?
我想知道R2R2R^2和F检验之间是否存在关系。 一般R2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R^2=\frac {\sum (\hat Y_t - \bar Y)^2 / T-1} {\sum( Y_t - \bar Y)^2 / T-1}和它测量在回归的线性关系的强度。 F检验只是证明了一个假设。 R2R2R^2和F检验之间有关系吗?

1
逆向岭回归:给定响应矩阵和回归系数,找到合适的预测因子
考虑一个标准的OLS回归问题:我有矩阵\ Y和\ X,我想找到\ B以最小化L = \ | \ Y- \ X \ B \ | ^ 2。 该解决方案由\ hat \ B = \ argmin_ \ B \ {L \} =(\ X ^ \ top \ X)^ + \ X ^ \ top \ Y给出。\newcommand{\Y}{\mathbf Y}\newcommand{\X}{\mathbf X}\newcommand{\B}{\boldsymbol\beta}\DeclareMathOperator*{argmin}{argmin}YY\YXX\Xββ\Bβ = argmin β { …


1
有关如何归一化回归系数的问题
不确定normalize是否在此处使用正确的词,但是我会尽力说明我要问的问题。这里使用的估计量是最小二乘。 假设有Ŷ = β 0 + β 1 X 1y=β0+β1x1y=\beta_0+\beta_1x_1,则可以通过居中围绕平均值Ŷ = β ' 0 + β 1 X ' 1y=β′0+β1x′1y=\beta_0'+\beta_1x_1',其中β ' 0 = β 0 + β 1 ˉ X 1β′0=β0+β1x¯1\beta_0'=\beta_0+\beta_1\bar x_1和X ' 1 = X - ˉ Xx′1=x−x¯x_1'=x-\bar x,使β ' 0β′0\beta_0'不再对估计任何影响β 1β1\beta_1。 我的意思是β 1在Ŷ = β 1 X ' …

1
迭代加权最小二乘的定义和收敛性
我一直在使用迭代加权最小二乘(IRLS)来最小化以下形式的函数, J(m)=∑Ni=1ρ(|xi−m|)J(m)=∑i=1Nρ(|xi−m|)J(m) = \sum_{i=1}^{N} \rho \left(\left| x_i - m \right|\right) 其中NNN是实例数xi∈Rxi∈Rx_i \in \mathbb{R},m∈Rm∈Rm \in \mathbb{R}是鲁棒估计,我想,并且ρρ\rho是一个合适的健壮罚函数。假设它是凸的(尽管不一定严格)并且目前是可区分的。这种一个很好的例子ρρ\rho是Huber损失函数。 我一直在做的是区分J(m)J(m)J(m)相对于mmm(和操作)来获得, dJdm=∑Ni=1ρ′(|xi−m|)|xi−m|(xi−m)dJdm=∑i=1Nρ′(|xi−m|)|xi−m|(xi−m)\frac{dJ}{dm}= \sum_{i=1}^{N} \frac{\rho'\left( \left|x_i-m\right|\right) }{\left|x_i-m\right|} \left( x_i-m \right) 并通过将其设置为0并将迭代权重固定kkk为w i(k )= ρ ' (| x i − m (k )|)来迭代求解wi(k)=ρ′(|xi−m(k)|)|xi−m(k)|wi(k)=ρ′(|xi−m(k)|)|xi−m(k)|w_i(k) = \frac{\rho'\left( \left|x_i-m{(k)}\right|\right) }{\left|x_i-m{(k)}\right|}(请注意,在处感知到的奇点xi=m(k)xi=m(k)x_i=m{(k)}实际上是我可能关心的所有的可移动奇点ρρ\rho)。然后我得到 ∑Ni=1wi(k)(xi−m(k+1))=0∑i=1Nwi(k)(xi−m(k+1))=0\sum_{i=1}^{N} w_i(k) \left( x_i-m{(k+1)} \right)=0 我求解得到m(k+1)=∑Ni=1wi(k)xi∑Ni=1wi(k)m(k+1)=∑i=1Nwi(k)xi∑i=1Nwi(k)m(k+1) = \frac{\sum_{i=1}^{N} w_i(k) x_i}{ …

2
残差异方差的度量
该维基百科链接列出了多种检测OLS残差异方差性的技术。我想了解哪种动手操作技术在检测受异方差影响的区域时更有效。 例如,在这里,OLS“残差vs拟合”图中的中心区域的方差比图中侧面的高(我并不完全确定事实,但出于问题考虑,我们假设是这种情况)。作为确认,查看QQ图中的错误标签,我们可以看到它们与残差图中心的错误标签匹配。 但是我们如何量化方差明显更高的残差区域呢?

2
为什么正交投影的投影矩阵是对称的?
我对此很陌生,所以如果问题很幼稚,希望您能原谅我。(上下文:我正在从Davidson和MacKinnon的书《计量经济学的理论与方法》中学习计量经济学,他们似乎并没有对此进行解释;我还看了Luenberger的优化书,该书以更高的水平处理了预测,但是没有运气)。 假设我有一个正交投影与相关联的投影矩阵。我有兴趣将每个向量投影到某个子空间。PP\mathbb PPP\bf PRn[Rñ\mathbb{R}^nA⊂Rn一种⊂[RñA \subset \mathbb{R}^n 问题:为什么遵循,即是对称的?我可以从哪本教科书看这个结果?T PP=PP=P\bf{P}=PTŤ^TPP\bf P

1
尽管一个变量是其他变量的线性组合,但是为什么这种回归不会由于完美的多重共线性而失败?
今天,我正在研究一个小的数据集,并执行了一个简单的OLS回归,由于完美的多重共线性,我预计会失败。但是,事实并非如此。这意味着我对多重共线性的理解是错误的。 我的问题是:我哪里错了? 我认为我可以证明我的一个变量是其他变量的线性组合。这将导致没有完整等级的回归矩阵,因此不应识别系数。 我生成了一个小的可复制数据集(下面的代码): exporter importer flow dist intraUS 1 Canada Canada 996.8677 6.367287 0 2 Florida Canada 995.8219 9.190562 0 3 Texas Canada 1001.6475 4.359063 0 4 Mexico Canada 1002.4371 7.476649 0 5 Canada Florida 1002.8789 5.389223 0 6 Florida Florida 1007.5589 6.779686 1 7 Texas Florida 996.8938 1.570600 …

1
线性模型的BLUE(OLS解决方案)以外的其他无偏估计量
对于线性模型,OLS解决方案为参数提供了最佳的线性无偏估计量。 当然,我们可以将偏差换成较低的方差,例如岭回归。但是我的问题是关于没有偏见。是否还有其他一些较常用的估计器,它们没有偏倚但与OLS估计的参数相比具有更高的方差? 如果我有一个庞大的数据集,我当然可以对其进行二次采样,并用较少的数据估计参数,并增加方差。我认为这可能是有用的。 这更多是一个修辞性的问题,因为当我阅读有关BLUE估计量的信息时,没有提供更糟糕的选择。我猜想提供更差的选择还可以帮助人们更好地理解BLUE估计器的功能。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.