全面披露:这是家庭作业。我提供了指向数据集的链接(http://www.bertelsen.ca/R/logistic-regression.sav)
我的目标是在此数据集中最大程度地预测违约贷款。
到目前为止,我提出的每个模型都预测> 90%的非默认者,但是<40%的默认者使分类效率总体达到80%。那么,我想知道变量之间是否存在交互作用?在逻辑回归中,除了测试每种可能的组合之外,还有没有办法确定潜在的交互作用?或者,一种提高违约者分类效率的方法。
我被困住了,任何建议都会对您选择单词,R代码或SPSS语法有所帮助。
下面的直方图和散点图概述了我的主要变量(二分变量除外)
主要变量的说明:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
其他变量只是上述内容的转换。我还尝试了将一些连续变量转换为分类变量,并在模型中实现它们,但是没有运气。
如果您想将其快速弹出到R中,则为:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)