卡方特征选择到底如何工作？

我知道，对于每个要素类对，都会计算卡方统计量的值并将其与阈值进行比较。

我有点困惑。如果有特征和类，那么如何构建列联表？如何确定保留哪些功能以及删除哪些功能？ $m$ $k$

任何澄清将不胜感激。提前致谢

chi-squared feature-selection

— 用户名
source

对这个人有什么想法/指针吗？

— user721975 2012年

卡方检验是独立性的统计检验，用于确定两个变量的依赖性。它与确定系数R²具有相似之处。但是，卡方检验仅适用于分类数据或名义数据，而R²仅适用于数字数据。

根据卡方的定义，我们可以轻松推断卡方技术在特征选择中的应用。假设您有一个目标变量（即类标签）和一些其他特征（特征变量）来描述数据的每个样本。现在，我们计算每个特征变量和目标变量之间的卡方统计量，并观察变量和目标之间是否存在关系。如果目标变量独立于特征变量，则可以丢弃该特征变量。如果它们是相关的，则特征变量非常重要。

数学细节在此处描述：http : //nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html

对于连续变量，可以在“绑定”变量之后应用卡方。

R中的一个示例，从FSelector中无耻地复制了

# Use HouseVotes84 data from  mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)

#Calculate the chi square statistics 
weights<- chi.squared(Class~., HouseVotes84)

# Print the results 
print(weights)

# Select top five variables
subset<- cutoff.k(weights, 5)

# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)

与功能选择没有太大关系，但以下视频详细讨论了卡方方块https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8

— 徒弟
source