Questions tagged «feature-selection»

选择用于进一步建模的属性子集的方法和原理

1
通过随机森林和线性回归得出的特征重要性不同
应用套索对特征进行排名并得到以下结果: rank feature prob. ================================== 1 a 0.1825477951589229 2 b 0.07858498115577893 3 c 0.07041793111843796 请注意,数据集具有3个标签。不同标签的功能等级相同。 然后将随机森林应用于相同的数据集: rank feature score =================================== 1 b 0.17504808300002753 6 a 0.05132699243632827 8 c 0.041690685195283385 请注意,排名与套索产生的排名有很大不同。 如何解释差异?是否暗示基础模型固有地是非线性的?

1
支持向量机的功能选择
我的问题是三方面的 在“内核化”支持向量机的上下文中 是否需要进行可变/特征选择-特别是因为我们将参数C正则化以防止过度拟合,并且将内核引入SVM的主要动机是增加问题的维度,在这种情况下,通过参数缩减来减小维度似乎违反直觉 如果第一个问题的答案为“否”,那么在什么条件下应记住的答案会发生变化? 在python的scikit-learn库中是否尝试过一些好的方法来减少SVM的功能-我尝试了SelectFpr方法,正在寻找有不同方法经验的人。

1
学习信号编码
我有大量样本,它们将曼彻斯特编码的比特流表示为音频信号。它们的编码频率很高时,它是主要的频率成分,并且背景中始终有恒定的白噪声。 我已经手动解码了这些流,但是我想知道是否可以使用某种机器学习技术来学习编码方案。这将节省大量手动识别这些方案的时间。困难在于不同的信号被不同地编码。 是否有可能建立一个可以学习解码多个编码方案的模型?这样的模型有多健壮,我想采用哪种技术?独立分量分析(ICA)似乎对隔离我关心的频率有用,但是我将如何学习编码方案?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.