将回归系数平均以建立模型是否存在任何理论问题?
我想构建一个回归模型,该模型是多个OLS模型的平均值,每个模型都基于完整数据的子集。其背后的思想是基于本文的。我创建k个折叠并建立k个OLS模型,每个模型都基于没有折叠之一的数据。然后,我平均回归系数以获得最终模型。 这让我印象深刻,类似于随机森林回归,其中建立了多个回归树并将其平均。但是,平均OLS模型的性能似乎比仅在整个数据上构建一个OLS模型差。我的问题是:为多个OLS模型求平均有理论上的错误或不合需要的理由吗?我们可以期望平均多个OLS模型来减少过度拟合吗?下面是一个R示例。 #Load and prepare data library(MASS) data(Boston) trn <- Boston[1:400,] tst <- Boston[401:nrow(Boston),] #Create function to build k averaging OLS model lmave <- function(formula, data, k, ...){ lmall <- lm(formula, data, ...) folds <- cut(seq(1, nrow(data)), breaks=k, labels=FALSE) for(i in 1:k){ tstIdx <- which(folds==i, arr.ind = TRUE) tst <- …