Logistic回归抽样是否应反映1和0的实际比率？

假设我想创建一个逻辑回归模型，该模型可以根据树木的特征（身高）估算一些生活在树木上的动物物种的发生概率。和往常一样，我的时间和金钱有限，因此我只能收集有限的样本量。

我有以下问题： 样本中1和0的比率是否可以反映1和0的真实比率？（至少大约是）我注意到，使用均衡样本（1和0的数目相等）执行逻辑回归模型是一种常见的做法 -但是这样的模型给出了超现实的出现概率-对吗？

我是否可以使用任何文章/教科书来支持这种观点，即那些不能反映1和0的真实比率的模型是“ 错误的 ”？**

最后：根据Imai等人的说法，是否可以执行1：1采样并随后使用tau校正模型。2007年？

今井浩辅，加里·金和奥利维亚·刘。2007年。“ relogit：稀有事件二分因变量的逻辑回归”，作者Imai，Gary King和Olivia Lau，“ Zelig：每个人的统计软件”，http：//gking.harvard.edu/zelig。

点表示树木（红色=已占用，灰色=未占用）。我能够以100％的精度（1）识别所有占用的树木，但是我无法测量森林中的所有树木。每个采样策略（比率）的模型都不相同。

logistic sampling

— 拉迪斯拉夫·纳索
source

如果这种模型的目标是预测，那么您就不能使用未加权逻辑回归来预测结果：您将过度预测风险。逻辑模型的优势在于，优势比（OR）（用于衡量逻辑模型中风险因素与二元结果之间的关联的“斜率”）与结果相关采样不变。因此，如果以10：1、5：1、1：1、5：1、10：1的比例与控件进行采样，那就没关系了：只要无条件采样，两种情况下的OR均保持不变曝光（这会引入伯克森的偏见）。实际上，当完全不可能进行完全简单的随机抽样时，取决于结果的抽样是一种节省成本的工作。

为什么使用逻辑模型与结果依赖抽样相比，风险预测存在偏差？结果依赖抽样影响逻辑模型中的截距。这导致S形关联曲线通过总体中的简单随机样本中的样本对数奇数和伪样本中的样本对数奇数之差“向上滑动x轴” -您的实验设计。（因此，如果您要控制的案例为1：1，则有50％的机会在此伪总体中采样案例）。在罕见的结果中，这是一个很大的差异，为2或3倍。

当您说这种模型是“错误的”时，您必须关注目标是推理（正确）还是预测（错误）。这也解决了结果与案例的比率。关于该主题，您倾向于看到的语言是将这样的研究称为“案例控制”研究，该研究已经进行了广泛的介绍。也许我最喜欢该主题的出版物是Breslow and Day，这是一项具有里程碑意义的研究，描述了罕见的癌症原因的危险因素（由于事件的罕见性，以前是不可行的）。案例对照研究引发了围绕频繁误解发现的争议：特别是将OR与RR（夸大发现）混为一谈，还把“研究基础”作为样本和总体的中介，从而增强了发现。对他们提出了很好的批评。但是，没有批评声称病例对照研究本质上是无效的，我的意思是你怎么可能？他们在无数种途径中促进了公共卫生。Miettenen的文章擅长指出，您甚至可以在依赖结果的抽样中使用相对风险模型或其他模型，并在大多数情况下描述结果与总体水平发现之间的差异：这并不算糟，因为OR通常是硬参数解释。

克服风险预测中过采样偏差的最佳和最简单的方法可能是使用加权似然。 Scott和Wild讨论了权重，并表明它可以纠正截距项和模型的风险预测。当事先了解人口中病例的比例时，这是最好的方法。如果结果的发生率实际上是1：100，并且您以1：1的方式将病例抽样到对照中，则只需将控件加权100即可获得总体一致的参数和无偏风险的预测。这种方法的缺点是，如果在其他地方估计有误差，则无法说明人口患病率的不确定性。Lumley和Breslow是开放式研究的广阔领域关于两阶段采样和双稳健估计器的理论已经走得很远。我认为这是非常有趣的东西。Zelig的程序似乎只是权重功能的实现（由于R的glm函数允许权重，因此似乎有点多余）。

— 亚当
source

（+1）值得一提的是，事前更正是为简单的病例对照抽样调整截距的最简单方法吗？

— Scortchi-恢复莫妮卡

@Scortchi您的意思是在截距上具有先验知识的贝叶斯逻辑回归吗？还是约束优化？我实际上并不熟悉这可能是什么。

— AdamO'2

这里只是简单的计算：stats.stackexchange.com/a/68726/17230。（我现在不太确定我在哪里使用该术语或它的标准程度。）我听说加权对于错误指定的模型更有效。

— Scortchi-恢复莫妮卡

@Scortchi啊，那很容易！只要不需要误差估计就可以进行预测。加权将为截距和斜率提供不同的SE，但此方法均不会影响。

— AdamO'2