对于套索回归假设最佳解决方案(例如最小测试误差)选择了k个特征,这样\ hat {\ beta} ^ {lasso} = \ left(\ hat {\ beta} _1 ^ {lasso},\ hat {\ beta} _2 ^ {lasso},...,\ hat {\ beta} _k ^ {lasso},0,... 0 \ right)。
L(β)=(Xβ−y)′(Xβ−y)+λ∥β∥1,
kβ^lasso=(β^lasso1,β^lasso2,...,β^lassok,0,...0)
我们知道(β^lasso1,β^lasso2,...,β^lassok)是一个\ left(\ beta_1,\ beta_2,...,\ beta_k \ right)的估计值有偏差(β1,β2,...,βk),所以为什么我们仍将β^lasso作为最终解决方案,而不是更“合理的” β^new=(β^new1:k,0,...,0),其中β^new1:k是部分模型Lnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)。(X1:k表示与k个所选要素相对应的X列)。Xk
简而言之,为什么我们同时将Lasso用于特征选择和参数估计,而不是仅用于变量选择(并将选定特征的估计留给OLS)?
(此外,“套索最多可以选择n特征” 是什么意思?n是样本大小。)