调查人口之间的差异


9

假设我们有两个样本:AB。假设这些人口是由个体组成的,我们选择根据特征来描述个体。这些功能中有些是分类的(例如,它们开车上班吗?),有些是数字的(例如,它们的高度)。我们称这些功能为:。我们收集了数百个这样的功能(例如n = 200),为简单起见,我们假设所有个人都没有错误也没有噪音。X1Xn

我们假设两个人口是不同的。我们的目标是回答以下两个问题:

  1. 它们实际上有很大不同吗?
  2. 它们之间有何显着不同?

决策树(例如,随机森林)和线性回归分析等方法可以提供帮助。例如,可以查看随机森林中的要素重要性或线性回归中的拟合系数,以了解可以区分这些类别的要素,并探索要素与种群之间的关系。

在走这条路之前,我想先了解一下我的选择,什么是好做法以及现代与坏做法。请注意,我的目的不是预测本身,而是测试并发现组之间的任何重大差异。

解决该问题的一些原则方法是什么?

这是我的一些担忧:

  • 线性回归分析之类的方法可能无法完全回答(2),对吧?例如,一次拟合可以帮助您找到一些差异,但不是所有明显的差异。例如,多重共线性可能使我们无法找到所有特征在组之间的变化方式(至少在一次拟合中)。出于同样的原因,我希望方差分析也无法提供(2)的完整答案。

  • 尚不清楚预测方法将如何回答(1)。例如,我们应该最小化什么分类/预测损失函数?而且一旦适应后,我们如何测试两组之间是否存在显着差异?最后,我担心我得到的答案(1)可能取决于我使用的特定分类模型集。

Answers:


5

让我们考虑以下问题。

假设并且是代表总体的二元变量:表示第一总体,表示第二总体。零假设可以用几种等效的方式表示:ý ý = 0 ÿ = 1X=(X1,X2,..Xn)YY=0Y=1

  • H0:人口相同
  • X Y = 0 X Y = 1H0:分布给定的相同的分布给定XY=0XY=1
  • X YH0:和独立XY
  • ˚F { 0 1 } ˚F X ÿH0:对于到任何函数,和是独立的f{0,1}f(X)Y

我对随机森林了解不多,但是可以将它们视为避免过度拟合的多用途预测器。如果我们将它们理想化一些:它能够检测与特征之间的任何类型的关系而不会过度拟合。XYX

可以基于此尝试某些操作。将原始数据集拆分为训练集和测试集。然后:

  • 在训练集上训练从预测的随机森林。ÿ XfYX
  • 在测试集的和之间进行简单的卡方独立性测试(风险)˚F X ÿαf(X)Y

这个测试很保守。如果随机森林是一种较差的方法,则在最坏的情况下输出哑,则无论如何(当为true时)它将拒绝的概率小于。由于我们使用了测试和训练集,因此过度拟合甚至不会成为问题。但是,测试的能力直接取决于随机森林方法(或使用的任何预测变量)的智能。ħ 0 α ħ 0f(X)H0αH0

请注意,您可以使用几种可能的预测变量:首先是普通的旧逻辑回归,然后是具有某些交叉特征的逻辑回归,然后是一些决策树,然后是随机森林...但是如果这样做,则应将调整为数字避免“错误发现”的测试。请参阅:针对多个测试的Alpha调整α


感谢Benoit(+1)。这似乎适用于问题(1)。关于如何使用此方法或替代方法解决(2)的任何想法?
阿梅利奥·瓦兹克斯·雷纳

正如DJohnson指出的那样,RF是无法解释的。逻辑回归可以是(至少具有单个特征)。这实际上取决于预测变量。按照接近RF的想法,可以使用许多(随机)决策树(调整好的),并以最小(=最佳)p值显示树。α
贝努瓦·桑切斯

谢谢。我喜欢建议拟合随机DT,并在卡方检验中找到效果最显着的建议。当您提到使用调整良好的时,我假设您是指Bonferroni更正。这与使用RF和测试每棵树有何不同?α
Amelio Vazquez-Reina

另外,我对RF的希望是识别可捕获差异的特征(即至少获得(2)的部分答案)。它们对于可解释性而言并不理想(尽管我认为可以通过限制其高度来做到这一点)。在这两种情况下,关于DT的说法都一样吗?请确保我能很好地理解您的评论。
阿梅利奥·瓦兹奎兹·雷纳

是的,我指的是邦费罗尼。使用RF,您可以通过平均多个DT来创建单个预测变量。然后,使用此平均值而不是每个DT进行一次测试,从而导致风险。使用多个DT,您将进行测试,从而产生风险(除非您使用Bonferroni)。必须将其视为多次测试,而平均多个DT的(一次)RF平均是一次测试。Ñ 1 - 1 - α ñαn1(1α)n
贝诺瓦·桑切斯

3

您没有说数据中有多少个可用功能。很少很多很多?我们是否可以假设它们在总体之间具有相同的特征,所有特征均使用相同的工具,方法和方式进行测量?如果没有,那么您将面临一个更大的问题,即变量误差测量模型可能会起作用。

@benoitsanchez似乎已经回答了问题#1)。

Wrt#2),我不确定RF是否可以提供帮助。通过使用更正式的模型,例如一次将单向ANOVA应用于一个特征,可以开发出特征之间总体差异的测试。通过总结这些测试的结果,基于测试的大小及其重要性,可以描述人口在各个特征之间的差异。这是一个公认的临时和启发式解决方案,可能不足以满足您的口味,喜好和培训要求。

我不太擅长于Latex类型的表示法,让我简单地描述一下这些测试的工作方式:首先,构造某种宏循环,一次通过所有功能。每次循环时,新功能都将成为目标或DV,其中X由用于填充的虚拟变量以及适当的任何控制变量组成。确保对每个功能使用相同的控件,并且所有ANOVA的基础数据都完全相同,以消除归因于有限数据样本变迁的变化。汇总每个功能的虚拟变量的F检验值。这将提供标准化的度量标准,从而可以跨功能进行比较。F测试优于拟合的beta,因为beta没有标准化,以每个单独功能的单元和标准开发人员表示。

您最后的评论是:“我担心对(1)的回答可能取决于我使用的特定分类/回归模型集”。答案很可能会根据所使用的模型而变化。这也是在理论上和受过经典训练的统计学家中普遍观察到的不适,这些统计学家对应用统计模型的不确定性不满意或难以理解。埃夫隆(Efron)和哈斯提(Hastie)的最新著作《计算机时代统计推论》(Computer Age Statistics Inference)是解决这些症状的极好解药。他们坦率地认识到所有模型的迭代,近似,启发式性质,从而将统计建模带入了21世纪,即数据科学和机器学习时代具有误差项的模型。人们不必是贝叶斯主义者就可以识别这种观察中固有的真理。他们的观点令人耳目一新,不同于经典的20世纪统计实践的严格决定论,后者在例如交叉乘积矩阵不倒置和/或不满足某些学究模型假设的情况下举起了手。


谢谢@DJohnson。当您说“为每个功能汇总虚拟变量的F检验值”时,您的确切含义是什么?即您将如何处理此结果?另外,在这种情况下,beta是什么意思?最后,这种迭代方法是否会被限制为没有交互作用?例如,使用原始示例,如果“开车去工作的人的身高”有显着差异怎么办?
阿梅利奥·瓦兹奎兹·雷纳

另外,为什么要进行一系列1向ANOVA测试而不是进行多向ANOVA测试?
阿梅利奥·瓦兹奎兹·雷纳

2
好问题。就生成的描述性轮廓而言,我正在考虑简单地记录每个功能的F检验以及相关的显着性或p值,然后将其从高到低排序。由于F检验是卡方的比率,因此不是对称的,因此可以将总体均值添加到报告中,以帮助理解结果的方向性。另外,t检验可以帮助理解。这种概况将有助于理解特征的强度或强度与基础种群的关系。
Mike Hunter

如上所述,应适当添加控制变量。只要在所有模型中一致使用它们,它们就可以包括交互。根据定义,引入其他因素将使模型从单向扩展为多元回归或ANOVA。
Mike Hunter
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.