1
Logistic回归抽样是否应反映1和0的实际比率?
假设我想创建一个逻辑回归模型,该模型可以根据树木的特征(身高)估算一些生活在树木上的动物物种的发生概率。和往常一样,我的时间和金钱有限,因此我只能收集有限的样本量。 我有以下问题: 样本中1和0的比率是否可以反映1和0的真实比率?(至少大约是)我注意到,使用均衡样本(1和0的数目相等)执行逻辑回归模型是一种常见的做法 -但是这样的模型给出了超现实的出现概率-对吗? 我是否可以使用任何文章/教科书来支持这种观点,即那些不能反映1和0的真实比率的模型是“ 错误的 ”?** 最后:根据Imai等人的说法,是否可以执行1:1采样并随后使用tau校正模型。2007年? 今井浩辅,加里·金和奥利维亚·刘。2007年。“ relogit:稀有事件二分因变量的逻辑回归”,作者Imai,Gary King和Olivia Lau,“ Zelig:每个人的统计软件”,http://gking.harvard.edu/zelig。 点表示树木(红色=已占用,灰色=未占用)。我能够以100%的精度(1)识别所有占用的树木,但是我无法测量森林中的所有树木。每个采样策略(比率)的模型都不相同。