假设我们有两个样本:A
和B
。假设这些人口是由个体组成的,我们选择根据特征来描述个体。这些功能中有些是分类的(例如,它们开车上班吗?),有些是数字的(例如,它们的高度)。我们称这些功能为:。我们收集了数百个这样的功能(例如n = 200),为简单起见,我们假设所有个人都没有错误也没有噪音。
我们假设两个人口是不同的。我们的目标是回答以下两个问题:
- 它们实际上有很大不同吗?
- 它们之间有何显着不同?
决策树(例如,随机森林)和线性回归分析等方法可以提供帮助。例如,可以查看随机森林中的要素重要性或线性回归中的拟合系数,以了解可以区分这些类别的要素,并探索要素与种群之间的关系。
在走这条路之前,我想先了解一下我的选择,什么是好做法以及现代与坏做法。请注意,我的目的不是预测本身,而是测试并发现组之间的任何重大差异。
解决该问题的一些原则方法是什么?
这是我的一些担忧:
线性回归分析之类的方法可能无法完全回答(2),对吧?例如,一次拟合可以帮助您找到一些差异,但不是所有明显的差异。例如,多重共线性可能使我们无法找到所有特征在组之间的变化方式(至少在一次拟合中)。出于同样的原因,我希望方差分析也无法提供(2)的完整答案。
尚不清楚预测方法将如何回答(1)。例如,我们应该最小化什么分类/预测损失函数?而且一旦适应后,我们如何测试两组之间是否存在显着差异?最后,我担心我得到的答案(1)可能取决于我使用的特定分类模型集。