使用lm()时R中权重参数背后的理论
在读研究生一年后,我的“加权最小二乘”的理解是这样的:让y∈Rny∈Rn\mathbf{y} \in \mathbb{R}^n,XX\mathbf{X}是一些n×pn×pn \times p设计矩阵,是一个参数向量中的是误差向量,使得,其中和。然后模型 β∈Rpβ∈Rp\boldsymbol\beta \in \mathbb{R}^pϵ∈Rnϵ∈Rn\boldsymbol\epsilon \in \mathbb{R}^nϵ∼N(0,σ2V)ϵ∼N(0,σ2V)\boldsymbol\epsilon \sim \mathcal{N}(\mathbf{0}, \sigma^2\mathbf{V})V=diag(v1,v2,…,vn)V=diag(v1,v2,…,vn)\mathbf{V} = \text{diag}(v_1, v_2, \dots, v_n)σ2>0σ2>0\sigma^2 > 0y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X}\boldsymbol\beta + \boldsymbol\epsilon 在该假设下的模型称为“加权最小二乘”模型。WLS问题最终是找到 argminβ(y−Xβ)TV−1(y−Xβ).argminβ(y−Xβ)TV−1(y−Xβ).\begin{equation} \arg\min_{\boldsymbol \beta}\left(\mathbf{y}-\mathbf{X}\boldsymbol\beta\right)^{T}\mathbf{V}^{-1}\left(\mathbf{y}-\mathbf{X}\boldsymbol\beta\right)\text{.} \end{equation} 假设y=[y1…yn]Ty=[y1…yn]T\mathbf{y} = \begin{bmatrix} y_1 & \dots & y_n\end{bmatrix}^{T},β=[β1…βp]Tβ=[β1…βp]T\boldsymbol\beta = \begin{bmatrix} \beta_1 & \dots & \beta_p\end{bmatrix}^{T}和 X=⎡⎣⎢⎢⎢⎢⎢x11x21⋮xn1⋯⋯⋮⋯x1px2p⋮xnp⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢xT1xT2⋮xTn⎤⎦⎥⎥⎥⎥⎥.X=[x11⋯x1px21⋯x2p⋮⋮⋮xn1⋯xnp]=[x1Tx2T⋮xnT].\mathbf{X} = \begin{bmatrix} x_{11} & \cdots …