我在理解ROC曲线时遇到问题。
如果我从训练集的每个唯一子集构建不同的模型并使用它来产生概率,ROC曲线下的面积是否有任何优势/改善?例如,如果具有值{ 一个,一,一,一,b ,b ,b ,b },和我建立模型阿通过使用一个从第一-第四值ÿ的和8-9值ÿ和构建使用剩余火车数据的模型B。最后,产生概率。任何想法/意见将不胜感激。
这是用于我的问题的更好解释的r代码:
Y = factor(0,0,0,0,1,1,1,1)
X = matirx(rnorm(16,8,2))
ind = c(1,4,8,9)
ind2 = -ind
mod_A = rpart(Y[ind]~X[ind,])
mod_B = rpart(Y[-ind]~X[-ind,])
mod_full = rpart(Y~X)
pred = numeric(8)
pred_combine[ind] = predict(mod_A,type='prob')
pred_combine[-ind] = predict(mod_B,type='prob')
pred_full = predict(mod_full, type='prob')
所以我的问题是,的ROC曲线下面积pred_combine
VS pred_full
。
3
一个更好的例子将大大改善这个问题。
—
mpiktas 2014年
我的理解是您想通过选择一些特定样本来增加AUC?如果这是您的目的,那么我坚信这种有偏见的样本选择方法是完全错误的,至少在您的目的是为分类性能找到一个好的衡量标准的情况下。
—
rapaio
看一下ROC的交互式演示
—
Alleo,2015年