我一直在研究逻辑模型,但在评估结果时遇到了一些困难。我的模型是二项式logit。我的解释变量是:具有15个级别的分类变量,二分变量和2个连续变量。我的N大于8000。
我正在尝试为公司的投资决策建模。因变量是投资(是/否),这15个级别变量是经理报告的不同投资障碍。其余变量是销售,信用和已用容量的控件。
下面是我的结果,使用rms
R中的包。
Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 8035 LR chi2 399.83 R2 0.067 C 0.632
1 5306 d.f. 17 g 0.544 Dxy 0.264
2 2729 Pr(> chi2) <0.0001 gr 1.723 gamma 0.266
max |deriv| 6e-09 gp 0.119 tau-a 0.118
Brier 0.213
Coef S.E. Wald Z Pr(>|Z|)
Intercept -0.9501 0.1141 -8.33 <0.0001
x1=10 -0.4929 0.1000 -4.93 <0.0001
x1=11 -0.5735 0.1057 -5.43 <0.0001
x1=12 -0.0748 0.0806 -0.93 0.3536
x1=13 -0.3894 0.1318 -2.96 0.0031
x1=14 -0.2788 0.0953 -2.92 0.0035
x1=15 -0.7672 0.2302 -3.33 0.0009
x1=2 -0.5360 0.2668 -2.01 0.0446
x1=3 -0.3258 0.1548 -2.10 0.0353
x1=4 -0.4092 0.1319 -3.10 0.0019
x1=5 -0.5152 0.2304 -2.24 0.0254
x1=6 -0.2897 0.1538 -1.88 0.0596
x1=7 -0.6216 0.1768 -3.52 0.0004
x1=8 -0.5861 0.1202 -4.88 <0.0001
x1=9 -0.5522 0.1078 -5.13 <0.0001
d2 0.0000 0.0000 -0.64 0.5206
f1 -0.0088 0.0011 -8.19 <0.0001
k8 0.7348 0.0499 14.74 <0.0001
基本上,我想以两种方式评估回归,a)模型对数据的拟合程度,b)模型对结果的预测程度。为了评估拟合优度(a),我认为基于卡方的偏差测试在这种情况下不合适,因为唯一协变量的数量接近N,因此我们不能假设X2分布。这种解释正确吗?
我可以看到使用epiR
包的协变量。
require(epiR)
logit.cp <- epi.cp(logit.df[-1]))
id n x1 d2 f1 k8
1 1 13 2030 56 1
2 1 14 445 51 0
3 1 12 1359 51 1
4 1 1 1163 39 0
5 1 7 547 62 0
6 1 5 3721 62 1
...
7446
我还读到Hosmer-Lemeshow GoF测试已过时,因为它将数据除以10即可运行测试,这相当随意。
相反,我使用了Le Cessie–van Houwelingen–Copas–Hosmer测试,该测试在 rms
包装中。我不确定该测试的执行方式,我还没有阅读有关它的论文。无论如何,结果是:
Sum of squared errors Expected value|H0 SD Z P
1711.6449914 1712.2031888 0.5670868 -0.9843245 0.3249560
P很大,因此没有足够的证据表明我的模型不合适。大!然而....
在检查模型(b)的预测能力时,我画了一条ROC曲线,发现AUC为0.6320586
。看起来不太好。
因此,总结一下我的问题:
我运行的测试是否适合检查模型?我还能考虑其他哪些测试?
您是否认为该模型很有用,还是会基于相对较差的ROC分析结果而忽略该模型?
x1
应将其视为单个类别变量吗?也就是说,每种情况下是否都必须有1个且只有1个“障碍”才能进行投资?我认为某些情况下可能会遇到两个或多个障碍,而某些情况下则没有。