通过逻辑回归生成比值比置信区间的不同方法


12

我正在研究如何根据逻辑回归中获得的系数为比值比构建95%的置信区间。因此,考虑逻辑回归模型,

log(p1p)=α+βx

这样,对于对照组,x=0,对于病例组,x=1

我已经读过,最简单的方法是为\ beta构造95%CI,β然后我们应用指数函数,即

β^±1.96×SE(β^)exp{β^±1.96×SE(β^)}

我的问题是:

  1. 证明该程序合理的理论原因是什么?我知道odds ratio=exp{β}并且最大似然估计是不变的。但是,我不知道这些元素之间的联系。

  2. 增量法是否应该产生与先前步骤相同的95%置信区间?使用增量法

    exp{β^}˙N(β, exp{β}2Var(β^))

    然后,

    exp{β^}±1.96×exp{β}2Var(β^)

    如果没有,那是最好的程序?


1
如果我有足够大的参数值或训练数据,我也喜欢CI的引导程序。
EngrStudent

2
有一种更好的方法,请参阅stats.stackexchange.com/questions/5304/…有关详细信息
mdewey

Answers:


7
  1. 该过程的理由是的MLE的渐近正态性,并且是由涉及中心极限定理的自变量得出的。β

  2. Delta方法来自围绕MLE的函数的线性(即一阶Taylor)展开。随后,我们呼吁MLE的渐近正态性和无偏性。

渐近都给出相同的答案。但实际上,您会喜欢看起来更接近正常的那一种。在此示例中,我倾向于第一个,因为后者可能不太对称。


3

ISL示例中的置信区间方法比较

Tibshirani,James,Hastie 的著作“统计学习入门”在第267页上提供了工资数据上多项式逻辑回归度4的置信区间的示例。报价书:

我们使用4级多项式进行逻辑回归对二元事件进行建模。拟合后的工资超过250,000美元的概率以蓝色显示,以及估计的95%置信区间。wage>250

下面是构造此类间隔的两种方法的快速回顾,以及有关如何从头开始实现它们的注释

Wald /端点转换间隔

  • 计算线性组合的置信区间的上限和下限(使用Wald CI)xTβ
  • 对端点应用单调变换以获得概率。F(xTβ)

因为是一个单调变换Pr(xTβ)=F(xTβ)xTβ

[Pr(xTβ)LPr(xTβ)Pr(xTβ)U]=[F(xTβ)LF(xTβ)F(xTβ)U]

具体而言,这意味着计算,然后将logit变换应用于结果以获取上下限:βTx±zSE(βTx)

[exTβzSE(xTβ)1+exTβzSE(xTβ),exTβ+zSE(xTβ)1+exTβ+zSE(xTβ),]

计算标准误差

最大似然理论告诉我们,可以使用回归系数的协方差矩阵使用以下公式计算的近似方差:xTβΣ

Var(xTβ)=xTΣx

将设计矩阵和矩阵为XV

X = [1x1,1x1,p1x2,1x2,p1xn,1xn,p]    V = [π^1(1π^1)000π^2(1π^2)000π^n(1π^n)]

其中是第个观测值的第个变量的值, 表示观测到的预测概率。xi,jjiπ^ii

然后可以找到协方差矩阵: ,标准误为Σ=(XTVX)1SE(xTβ)=Var(xTβ)

然后可以将预测概率的95%置信区间绘制为

在此处输入图片说明


增量法置信区间

该方法是计算函数的线性逼近的方差,并使用它来构建较大的样本置信区间。F

Var[F(xTβ^)]FT Σ F

其中是梯度,是估计的协方差矩阵。请注意,在一维中: Σ

F(xβ)β=F(xβ)xβxββ=xf(xβ)

其中是的导数。这在多变量情况下是普遍的fF

Var[F(xTβ^)]fT xT Σ x f

在我们的情况下,F是逻辑函数(我们将表示),其导数为π(xTβ)

π(xTβ)=π(xTβ)(1π(xTβ))

现在,我们可以使用上面计算的方差构造一个置信区间。

C.I.=[Pr(xβ^)zVar[π(xβ^)]Pr(xβ^)+zVar[π(xβ^)]]

多变量案例的矢量形式

C.I.=[π(xTβ^)±z(π(xTβ^)(1π(xTβ^)))TxT  Var[β^]  x  π(xTβ^)(1π(xTβ^))]
  • 注意,表示的单个数据点,即设计矩阵的单个行xRp+1X

在此处输入图片说明


一个开放式的结论

查看概率和负对数几率的正态QQ图可知,两者均不是正态分布。这可以解释差异吗?

在此处输入图片说明

资源:


1

在大多数情况下,最简单的方法可能是最好的方法,如本页上的日志转换上下文所述。考虑将您的因变量视为在logit量表中进行分析,并执行统计检验并在该logit量表上定义置信区间(CI)。逆向转换为优势比只是将这些结果放到读者可能更容易掌握的范围内。例如,在Cox生存分析中也可以做到这一点,在该分析中,对回归系数(和95%CI)进行指数运算以获得危险比及其CI。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.