3
如何为Logistic回归模型减少正确的预测变量
因此,我一直在阅读一些有关建模的书籍(或其中的一部分)(包括F. Harrell的“回归建模策略”),因为我目前的现状是我需要基于二进制响应数据进行逻辑模型处理。我的数据集中有连续数据,分类数据和二进制数据(预测变量)。基本上我现在大约有100个预测变量,对于一个好的模型来说,显然太多了。同样,这些预测变量中有许多是相关的,因为尽管它们有些不同,但它们通常基于相同的度量。 无论如何,我一直在阅读中,使用单变量回归和逐步技术是您可以做的一些最糟糕的事情,目的是减少预测变量的数量。我认为LASSO技术还可以(如果我正确理解的话),但是显然您不能在100个预测变量上使用它,并且认为会带来任何好处。 那么我在这里有什么选择呢?我是否真的必须坐下来,与我的所有主管和工作中的聪明人交谈,并真的考虑一下(应该是错误的)前5名最佳预测指标是什么,或者我应该选择哪种方法?考虑代替吗? 是的,我也知道这个话题已经被广泛讨论(在线和书籍中),但是当您对该建模领域的新手了解时,有时似乎有点不知所措。 编辑: 首先,我的样本量为+1000名患者(这在我的领域中是很多),并且其中有70-170个阳性反应(例如,其中170个是阳性反应,而其中一种情况约为900个没有反应) 。 基本上,该想法是预测放射治疗后的毒性。我有一些预期的二元响应数据(即毒性,或者是毒性(1),或者是毒性(0)),然后我有几种类型的指标。一些指标是患者特定的,例如年龄,使用的药物,器官和目标体积,糖尿病等,然后我基于目标的模拟治疗场获得了一些治疗特定的指标。从中我可以找到几个预测因子,这些预测因子在我的领域中通常是高度相关的,因为大多数毒性与所接收的辐射量(含糖量)高度相关。因此,例如,如果我治疗肺部肿瘤,则有一定剂量的剂量可能会击中心脏。然后,我可以计算出多少x心脏体积接收到x剂量剂量,例如“ 只需选择一个开始即可(尽管过去的实验当然尝试过,而且我也希望这样做),因为我需要“确切地”知道在何种程度上心脏毒性之间实际上存在很大的相关性和体积剂量(再次举例来说,还有其他类似的指标,其中应用了相同的策略)。是的,这几乎就是我的数据集的样子。一些不同的指标,有些有些相似。只需选择一个开始即可(尽管过去的实验当然尝试过,而且我也希望这样做),因为我需要“确切地”知道在何种程度上心脏毒性之间实际上存在很大的相关性和体积剂量(再次举例来说,还有其他类似的指标,其中应用了相同的策略)。是的,这几乎就是我的数据集的样子。一些不同的指标,有些有些相似。几乎是我的数据集的样子。一些不同的指标,有些有些相似。几乎是我的数据集的样子。一些不同的指标,有些有些相似。 然后,我要做的是建立一个预测模型,这样我就可以预测哪些患者有发生某种毒性的风险。而且由于响应数据是二进制的,所以我的主要思想当然是使用逻辑回归模型。至少这是其他人在我领域所做的。但是,在完成许多已经完成的论文时,其中有些似乎是错误的(至少在阅读这些特定类型的建模书籍(例如F. Harrel's)时)。许多人使用单变量回归分析来选择预测变量,并将其用于多元分析(如果我没记错的话,建议您这样做),并且许多人使用逐步技术来减少预测变量的数量。当然,这还不是全部。许多人使用LASSO,PCA,交叉验证,自举等,但是我所看过的 关于功能选择,这可能是我现在的位置。如何选择/找到在模型中使用的正确预测变量?我曾经尝试过这些单变量/逐步方法,但是每次我都想:“为什么这样做,如果错了?”。但是也许这是一个很好的方法,至少在最后显示了“好的模型”以正确的方式与“坏模型”以错误的方式相抵触。因此,我现在可能会以某种错误的方式进行操作,我需要帮助的是以正确的方式进行操作。 很抱歉,编辑时间太长。 编辑2: 只是我的数据看起来像一个简单的例子: 'data.frame': 1151 obs. of 100 variables: $ Toxicity : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 1 1 ... $ Age : num 71.9 64 52.1 65.1 63.2 …