卡方测试可用于哪种特征选择?


11
  1. 在这里,我问其他人在监督学习中通常使用卡方检验来进行特征选择和结果选择的做法。如果我理解正确,他们是否测试每个功能和结果之间的独立性,并比较每个功能的测试之间的p值?

  2. http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test中

    皮尔逊卡方检验是一种统计检验,应用于分类数据集,以评估两组之间观察到的差异是偶然产生的可能性。

    ...

    独立性测试评估列联表中表示的关于两个变量的成对观测值是否彼此独立(例如,轮询来自不同国籍的人的答复,以查看其国籍是否与答复相关)。

    那么,由测试测试其独立性的两个变量是否应该是分类的或离散的(除分类之外允许排序),而不是连续的?

  3. http://scikit-learn.org/stable/modules/feature_selection.html,他们

    执行χ2测试到虹膜数据集到只检索最佳的两个特征。

    虹膜数据集中,所有特征都是数字值和连续值,结果是类标签(分类)。卡方独立性检验如何应用于连续要素?

    要将卡方独立性检验应用于数据集,我们是否首先通过装仓(即先将要素的连续域离散化为仓,然后将其替换为仓中的要素值)来将连续要素转换为离散要素)?

    几个容器中的出现形成多项式特征(每个容器中都发生或不发生),因此卡方独立性检验可以应用于它们,对吗?

    顺便说一句,我们可以将卡方独立性检验应用于任何特征结果吗?

    对于结果部分,我们不仅可以通过卡方独立性检验,通过对连续结果进行分箱来选择用于分类的特征,还可以为回归选择特征,对吗?

  4. scikit学习网站还说

    计算每个非负要素与类之间的卡方统计量。

    此分数可用于从X中选择测试卡方统计量具有最高值的n_features特征,该特征必须包含非负特征,例如布尔值或频率 (例如,文档分类中的术语计数),相对于类。

    为什么测试需要非阴性功能?

    如果这些特征没有符号,但是是分类的或离散的,则测试仍然可以应用到它们吗?(请参阅我的第1部分)

    如果特征是负的,我们总是可以对它们的域进行归类,并用它们的出现替换它们(就像我对将测试应用于虹膜数据集所猜测的那样,请参阅第2部分),对吗?

注意:我猜Scikit Learn遵循一般原则,这就是我在这里要的。如果没有,那还是可以的。

Answers:


2

我认为您困惑的部分是关于卡方可以比较的变量类型。维基百科对此发表了以下看法:

它测试了零假设,该零假设指出样本中观察到的某些事件的频率分布与特定的理论分布一致。

因此,它比较频率分布,也称为计数,也称为非负数。不同的频率分布由分类变量定义。也就是说,对于分类变量的每个值,都需要一个可以与其他变量进行比较的频率分布。

有几种获取频率分布的方法。可能来自第二分类变量,其中与第一分类变量的共现被计数以获得离散的频率分布。另一个选择是对分类变量的不同值使用(多个)数字变量,它可以(例如)对数字变量的值求和。实际上,如果将分类变量二值化,则前者是后者的特定版本。

例如看一下这些变量集:

x = ['mouse', 'cat', 'mouse', 'cat']
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

类别变量xy可以通过计算共发生次数进行比较,这就是卡方检验的结果:

                 'mouse'    'cat'
'wild'              1         0
'domesticated'      1         2

但是,您也可以将'x'的值二值化并获取以下变量:

x1 = [1, 0, 1, 0]
x2 = [0, 1, 0, 1]
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

现在,计数值等于将与对应的值相加z

                 x1    x2
'wild'           1     0
'domesticated'   1     2

如您所见,列联表中的单个类别变量(x)或多个数值变量(x1x2)均由表示。因此,卡方检验可以应用于与另一个分类变量或多个数值变量(sklearn中的特征)组合的分类变量(sklearn中的标签)。


因此,如果chi_square特征选择只能用于非负特征(频率,计数,等),那么对于具有负值特征的情况意味着什么?转换特征还是使用其他特征选择方法?假设我们对Iris数据集进行了新的研究,并且我们有一个功能可以测量每天的萼片长度变化。最终会有负值。植物会萎缩和萎缩,从而造成长度的负面变化。也许我们正试图通过凋谢的速度对其进行分类。
Arash Howaida

1
卡方基于值的比例(即频率分布)。这是通过对(二值化的)特征值求和来实现的。因此,总和的一部分应该具有含义。对于负值,情况并非如此。
彼得
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.