我有一个训练有素的逻辑回归模型,该模型将应用于测试数据集。因变量是二进制(布尔值)。对于测试数据集中的每个样本,我应用逻辑回归模型来生成因变量为true的概率百分比。然后我记录实际价值是对还是错。我正在尝试计算线性回归模型中的或Adjusted数字。R 2
这为我提供了测试集中每个样本的记录,例如:
prob_value_is_true acutal_value
.34 0
.45 1
.11 0
.84 0
.... ....
我想知道如何测试模型的准确性。我的第一个尝试是使用列联表,并说“如果prob_value_is_true
> 0.80,则猜测实际值为真”,然后测量正确分类与错误分类的比率。但我不喜欢这样,因为感觉更像是我只是以0.80为边界进行评估,而不是整个模型以及所有prob_value_is_true
值的准确性。
然后,我尝试仅查看每个prob_value_is_true离散值,例如查看prob_value_is_true
= 0.34的所有样本,并测量实际值是真实的那些样本的百分比(在这种情况下,如果样本的百分比为%,则将具有完美的准确性正确= 34%)。我可以通过将的每个离散值的差值相加来创建模型准确性得分prob_value_is_true
。但是这里的样本大小是一个巨大的问题,尤其是对于极端情况(接近0%或100%),这样实际值的平均值就不准确,因此使用它们来衡量模型的准确性似乎并不正确。
我什至尝试创建巨大的范围以确保足够的样本量(0-.25,.25-.50,.50-.75,.75-1.0),但是如何测量实际值的%的“好” 。假设所有prob_value_is_true
介于0.25和0.50之间的样本的平均值acutal_value
为0.45。既然在范围内,那好吗?不好,因为它不在37.5%(范围的中心)附近?
因此,我被困在似乎应该是一个简单的问题上,希望有人可以将我指向一种资源或方法,以计算逻辑回归模型的静态精度。