特征选择的随机排列检验


9

我对逻辑回归上下文中用于特征选择的置换分析感到困惑。
您能否对随机置换测试提供清晰的解释,它如何应用于特征选择?可能有确切的算法和示例。

最后,与拉索或LAR等其他收缩方法相比,它又如何?


5
您的意思是否类似,例如,排列设计矩阵的单个列的条目,使响应和其他协变量保持不变?如果您使用的是特定参考,将其列出可能会有所帮助。
主教

我认为此链接citeseerx.ist.psu.edu/viewdoc / ...是指正确的技术。我目前正在尝试与告诉我该方法的讲师保持联系...
Ugo

没能与他取得联系(Donald Geman)
Ugo,

2
您的问题中有一些不清楚的地方可能需要澄清。在链接的论文中,对该算法有一个非常清晰的描述。您要询问有关此算法的特定信息吗?通过计算要解释的边际来进行特征选择的想法是吗?此外,您应该质疑本文中的定义2。这是无根据的主张,可能是可行的假设,但是较小的边际通常并不表示相关。LAR顺便说一句,是做线性回归的,并不是真正的二进制响应。pp
NRH

Answers:


10

(现在没有很多时间,所以我会简短地回答,然后再扩展)

假设我们正在考虑一个二元分类问题,并且拥有一组 1类样本和 2 类样本的训练集。用于特征选择的置换测试将分别查看每个特征。为特征计算测试统计,例如信息增益或均值之间的归一化差异。然后,将特征的数据随机排列并划分为两组,一组大小为,另一组大小为。然后根据此新分区计算测试统计量mnθmnθpp。根据问题的计算复杂度,然后在特征的所有可能分区上将其重复为和两组顺序,或这些顺序的随机子集。mn

现在,我们已经建立了的分布,我们可以计算从特征的随机分区中产生的观察到的测试统计量的p值。零假设是每个类别的样本都来自相同的基础分布(此功能无关)。θpθ

对所有要素重复此过程,然后可以通过两种方式选择用于分类的要素子集:

  • p值最低的特征N
  • p值所有功能<ϵ
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.