基本数据:我约有1,000个人标有评估:“ 1,” [好],“ 2”,[中]或“ 3” [差] –这些是我将来要为人们预测的价值。除此之外,我还有一些人口统计信息:性别(分类:男/女),年龄(数字:17-80)和种族(分类:黑人/高加索人/拉丁裔)。
我主要有四个问题:
我最初试图将上述数据集作为多元回归分析来运行。但是我最近了解到,由于我的依存关系是有序因素,而不是连续变量,因此我应该对此类情况使用序数逻辑回归。我最初使用的是这样的东西
mod <- lm(assessment ~ age + gender + race, data = dataset)
,有人能指出我正确的方向吗?从那里开始,假设我对系数感到满意,就知道如何仅将数值插入x1,x2等。但是,例如在有多种响应的情况下,我将如何处理种族:黑人/高加索人/拉丁美洲人?因此,如果它告诉我白种人系数为0.289,而我要预测的某个人是白种人,那么由于值不是数字,我该如何重新插入?
我还缺少一些随机值-有些是种族的,有些是性别的,等等。我是否还需要做其他一些事情以确保它不会歪斜任何东西?(我注意到,当我的数据集被加载到R-Studio中时,当丢失的数据被加载为时
NA
,R表示类似(162 observations deleted due to missingness)
-但如果它们被加载为空白,则它什么都不做。)假设所有这些都可以解决,并且我有我要预测的具有性别,年龄和种族的新数据-R中有没有更简单的方法可以通过我的新系数公式通过所有这些方法来运行所有这些数据,而不是手动进行?(如果这个问题在这里不合适,我可以将其带回R论坛。)