线性回归模型中的OLS估计器非常罕见,因为它具有可以用闭合形式表示的属性,即无需表示为函数的优化器。但是,它是函数的优化程序(残差平方和函数),可以这样计算。
Logistic回归模型中的MLE还是适当定义的对数似然函数的优化器,但是由于它不能以闭合形式表示,因此必须将其作为优化器进行计算。
大多数统计估计量只能表示为数据的适当构造的函数(称为标准函数)的优化器。这样的优化器需要使用适当的数值优化算法。可以使用optim()
提供一些通用优化算法的函数或更专业的软件包之一(例如)在R中计算函数的优化器optimx
。知道针对不同类型的模型和统计准则函数使用哪种优化算法是关键。
线性回归残差平方和
OLS估计器定义为众所周知的残差平方和函数的优化器:
β^=argminβ(Y−Xβ)′(Y−Xβ)=(X′X)−1X′Y
在二次可微的凸函数(例如残差平方和)的情况下,大多数基于梯度的优化器都表现出色。在这种情况下,我将使用BFGS算法。
#================================================
# reading in the data & pre-processing
#================================================
urlSheatherData = "http://www.stat.tamu.edu/~sheather/book/docs/datasets/MichelinNY.csv"
dfSheather = as.data.frame(read.csv(urlSheatherData, header = TRUE))
# create the design matrices
vY = as.matrix(dfSheather['InMichelin'])
mX = as.matrix(dfSheather[c('Service','Decor', 'Food', 'Price')])
# add an intercept to the predictor variables
mX = cbind(1, mX)
# the number of variables and observations
iK = ncol(mX)
iN = nrow(mX)
#================================================
# compute the linear regression parameters as
# an optimal value
#================================================
# the residual sum of squares criterion function
fnRSS = function(vBeta, vY, mX) {
return(sum((vY - mX %*% vBeta)^2))
}
# arbitrary starting values
vBeta0 = rep(0, ncol(mX))
# minimise the RSS function to get the parameter estimates
optimLinReg = optim(vBeta0, fnRSS,
mX = mX, vY = vY, method = 'BFGS',
hessian=TRUE)
#================================================
# compare to the LM function
#================================================
linregSheather = lm(InMichelin ~ Service + Decor + Food + Price,
data = dfSheather)
这样产生:
> print(cbind(coef(linregSheather), optimLinReg$par))
[,1] [,2]
(Intercept) -1.492092490 -1.492093965
Service -0.011176619 -0.011176583
Decor 0.044193000 0.044193023
Food 0.057733737 0.057733770
Price 0.001797941 0.001797934
Logistic回归对数似然
逻辑回归模型中与MLE相对应的标准函数是对数似然函数。
日志大号ñ(β )= ∑我= 1ñ(是一世日志Λ (X′一世β )+ (1 − Y一世)日志(1 - Λ (X′一世β )))
其中是逻辑函数。参数估计值是此函数的优化程序
Λ (k )= 1 /(1 + 指数(- ķ ))β^= arg最高β日志大号ñ(β )
我将展示如何optim()
再次使用BFGS算法使用该函数构造和优化准则函数。
#================================================
# compute the logistic regression parameters as
# an optimal value
#================================================
# define the logistic transformation
logit = function(mX, vBeta) {
return(exp(mX %*% vBeta)/(1+ exp(mX %*% vBeta)) )
}
# stable parametrisation of the log-likelihood function
# Note: The negative of the log-likelihood is being returned, since we will be
# /minimising/ the function.
logLikelihoodLogitStable = function(vBeta, mX, vY) {
return(-sum(
vY*(mX %*% vBeta - log(1+exp(mX %*% vBeta)))
+ (1-vY)*(-log(1 + exp(mX %*% vBeta)))
)
)
}
# initial set of parameters
vBeta0 = c(10, -0.1, -0.3, 0.001, 0.01) # arbitrary starting parameters
# minimise the (negative) log-likelihood to get the logit fit
optimLogit = optim(vBeta0, logLikelihoodLogitStable,
mX = mX, vY = vY, method = 'BFGS',
hessian=TRUE)
#================================================
# test against the implementation in R
# NOTE glm uses IRWLS:
# http://en.wikipedia.org/wiki/Iteratively_reweighted_least_squares
# rather than the BFGS algorithm that we have reported
#================================================
logitSheather = glm(InMichelin ~ Service + Decor + Food + Price,
data = dfSheather,
family = binomial, x = TRUE)
这产生
> print(cbind(coef(logitSheather), optimLogit$par))
[,1] [,2]
(Intercept) -11.19745057 -11.19661798
Service -0.19242411 -0.19249119
Decor 0.09997273 0.09992445
Food 0.40484706 0.40483753
Price 0.09171953 0.09175369
需要注意的是,数值优化算法需要谨慎使用,否则您可能会得到各种各样的病理学解决方案。在您完全理解它们之前,最好使用可用的打包选项,使您能够专注于指定模型,而不用担心如何用数字方式计算估计值。