置信区间为两个比例之比


20

我有两个比例(例如,控件布局中的链接上的点击率(CTR)和实验布局中的链接上的CTR),我想围绕这些比例的比率计算95%的置信区间。

我该怎么做呢?我知道我可以使用增量法来计算该比率的方差,但是我不确定除此之外该怎么办。我应该使用什么作为置信区间的中点(我的观察比率或不同的预期比率),以及应该在该比率周围取多少标准偏差?

我是否应该完全使用增量方法方差?(我真的不在乎方差,只是在一个置信区间内。)是否应该使用案例1的Fieller定理(因为我正在做比例,所以我猜我满足了正态分布的要求)?我应该只计算引导程序样本吗?


1
您有一个基本问题:大多数比例的正机会为零,因此(独立比例)的比率为正的机会是不确定的。这可能会给近似方法(如增量方法)带来严重困难,并建议应比平时更谨慎地看待正常近似,并进行更严格的测试。
ub

Joseph L. Fleiss,Bruce Levin,Myunghee Cho Paik:利率和比例的统计方法[1]讨论了相对风险,这是两个利率的商。我没有这本书,所以我只能按主题索引和目录浏览,但也许您的图书馆有。[1]:onlinelibrary.wiley.com/book/10.1002/0471445428
cbeleites支持Monica

百分位数引导程序肯定是最好的方法吗?
彼得·埃利斯

Answers:


19

在流行病学中进行此操作的标准方法(通常将比例比例称为风险比例)是先对比例进行对数转换,使用delta方法并假设正态分布,以对数刻度计算置信区间,然后变回去。在中等样本量下,此方法比在未转换的规模上使用delta方法更好,尽管如果任一组中的事件数很小,它将仍然表现不佳,而如果任一组中没有事件,则其将完全失败。

如果存在X 2的成功两组出总计ñ 1Ñ 2,则比例的比例明显的估计是θ = X 1 / Ñ 1X1个X2ñ1个ñ2

θ^=x1/n1x2/n2.

使用增量法和假设两个组是独立的和成功的二项分布,可以表明, 利用这一平方根给出了标准误差SE 日志θ。假定日志θ是正态分布,对于95%置信区间日志θ

Var(logθ^)=1/x11/n1+1/x21/n2.
SE(logθ^)logθ^logθ
logθ^±1.96SE(logθ^).
θ
θ^exp[±1.96SE(logθ^)].

5
n1n2n1p1n2p210x2=0 and xi=ni. It turns out both issues can be addressed with a continuity-correction-like approach: add 1/2 to both the xi, add 1 to both the ni, and proceed. Then this CI is surprisingly good provided both of the pini are 4 or greater, regardless of the sizes of the ni
Whuber

@whuber:“类似连续性校正的方法”-使用1/2特别常见吗?(与其他一些小伪计数相对。)您的发音方式使1/2声音在某种程度上具有原则性=)-是吗?
raegtin 2012年

有趣的问题,raegtin。在这种情况下,否:我尝试找到合适的起始值(这就是“事实证明”的含义)。1/2不是普遍有效;对于某些组合X一世ñ一世,其他值会稍微好一些。对估计量分布的理论研究可能会提出不同的起始值。
Whuber

Why is square-root of variance standard error in this case, not standard deviation?
Mikko

2
@onestop Is this implemented in any R package?
Bogdan Vasilescu
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.