我对逻辑回归中的模型选择和模型性能有疑问。我有基于三个不同假设的三个模型。前两个模型(分别命名为z和x)在每个模型中只有一个解释变量,而第三个模型(分别命名为w)更复杂。我正在使用AIC来选择w模型的变量,然后使用AIC来比较三个模型中最能解释因变量的模型。我发现w模型的AIC最低,现在想对该模型进行一些性能统计,以了解该模型的预测能力。既然我所知道的是,该模型比其他两个模型更好,但并不是那么好。
由于我已经使用所有数据来学习模型(以便能够比较所有三个模型),我该如何提高模型性能?从我收集到的信息来看,我不能仅对使用AIC从模型选择中获得的最终模型进行k折交叉验证,而是需要从头开始并包括所有解释变量,这是正确的吗?我想这是我与AIC选择的最终模型,我想知道它的性能如何,但确实意识到我已经对所有数据进行了训练,因此该模型可能会产生偏差。因此,如果我应该从头开始考虑所有折叠的所有解释变量,那么我将在某些折叠中得到不同的最终模型,我是否可以仅从折叠中选择具有最佳预测能力的模型,并将其应用于完整数据集进行比较AIC与其他两个模型(z和x)一起使用吗?或如何运作?
我的问题的第二部分是有关过度参数化的基本问题。我有156个数据点,其中52个为1,其余为0。对于w模型,我有14个解释变量可供选择,我意识到由于过分参数化,我无法将所有变量都包括在内,我读到您应该只使用因果变量组中的10%,而观察到的数据最少。对我来说只有5个 我正在尝试回答生态学中的一个问题,是否可以选择仅基于生态学就可以解释最佳依存关系的起始变量?或如何选择起始解释变量?完全排除某些变量并不正确。
所以我真的有三个问题:
- 在具有交叉验证的完整数据集上训练的模型上测试性能是否可以?
- 如果没有,在进行交叉验证时如何选择最终模型?
- 我该如何选择起始变量,以便过度参数化?
对不起我的问题和无知。我知道有人问过类似的问题,但仍然有些困惑。赞赏任何想法和建议。