Questions tagged «feature-selection»

选择用于进一步建模的属性子集的方法和原理

1
深度神经网络中的灵敏度分析
在回答一个已经回答的问题之后(从单层前馈网络提取权重重要性),我正在寻找关于神经网络中输入相关性的推论。 考虑到一个深层网络,通过从感兴趣的输出节点向后遍历各层来重建输入的重要性可能很困难或很耗时,我想知道在进行神经网络的敏感性分析时是否存在一些理论框架,基本上改变了一个输入并考虑感兴趣的输出节点如何变化。 在神经网络中是否存在执行某种敏感性分析的规范方法? 如果有的话,我真的很欢迎一些Python代码这样做

1
贝叶斯套索vs钉和板
问题:在变量选择上使用一个优先于另一个的优点/缺点是什么? 假设我有可能性: 其中I可以把任一先验之一: 或: 瓦特我〜π δ 0 + (1 - π )Ñ(0 ,100 )ÿ〜ñ(Xw ^ ,σ2一世)y∼N(Xw,σ2I)y\sim\mathcal{N}(Xw,\sigma^2I)w ^ 我〜EXP (- λ | W ^ 我|)wi∼πδ0+(1−π)N(0,100)π=0.9,wi∼πδ0+(1−π)N(0,100)π=0.9, w_i\sim \pi\delta_0+(1-\pi)\mathcal{N}(0,100)\\ \pi=0.9\,, wi∼exp(−λ|wi|)λ∼Γ(1,1).wi∼exp⁡(−λ|wi|)λ∼Γ(1,1). w_i\sim \exp(-\lambda|w_i|)\\ \lambda \sim \Gamma(1,1)\,. 我用来强调大多数权重为零,并在上加一个伽玛来选择'regularizing'参数。λπ=0.9π=0.9\pi=0.9λλ\lambda 但是,我的教授一直坚持认为套索版本会“缩小”系数,实际上并没有进行适当的变量选择,即相关参数甚至都过度缩小。 由于使用贝叶斯变换,我个人觉得实现套索版本更容易。实际上,有效地使用的稀疏贝叶斯学习论文甚至提供了稀疏解决方案。1|wi|1|wi|\frac{1}{|w_i|}

3
为什么神经网络需要特征选择/工程设计?
尤其是在kaggle竞赛中,我注意到模型的性能完全取决于特征选择/工程。虽然我可以完全理解为什么在处理更传统/较旧的ML算法时会出现这种情况,但我不明白为什么在使用深度神经网络时会出现这种情况。 引用深度学习书: 深度学习通过引入以其他更简单的表示形式表示的表示形式,解决了表示学习中的这一核心问题。深度学习使计算机可以从更简单的概念中构建复杂的概念。 因此,我一直认为,如果“信息包含在数据中”,则在足够的训练时间下,足够深,参数齐全的神经网络将获得正确的特征。

3
如何在机器学习管道中对特征选择和超参数优化进行排序?
我的目标是对传感器信号进行分类。到目前为止,我的解决方案的概念是:i)从原始信号中获取工程特征ii)使用ReliefF和聚类方法选择相关特征iii)应用NN,Random Forest和SVM 但是我陷入了困境。在ii)和iii)中,存在用于ReliefF的k-最近的Neigbours或窗口长度的超参数,对其进行评估的传感器信号,或NN的每一层中的隐藏单位数 我在这里看到3个问题:1)调整特征选择参数会影响分类器的性能2)优化分类器的超参数会影响特征的选择。3)评估配置的每种可能组合都是很困难的。 所以我的问题是:a)我可以做一个简化的假设,可以将st调整特征选择参数与调整分类器参数解耦吗?b)还有其他可能的解决方案吗?

2
为什么与套索相比,最好的子集选择不受欢迎?
我正在阅读《统计学习的元素》一书中有关最佳子集选择的内容。如果我有3个预测变量,则创建个子集:2 3 = 8x1,x2,x3x1,x2,x3x_1,x_2,x_323=823=82^3=8 无预测子集 具有预测变量子集x1x1x_1 具有预测变量子集x2x2x_2 具有预测值子集x3x3x_3 具有预测变量子集x1,x2x1,x2x_1,x_2 具有预测变量子集x1,x3x1,x3x_1,x_3 具有预测变量子集X2,X3x2,x3x_2,x_3 具有预测变量子集X1个,X2,X3x1,x2,x3x_1,x_2,x_3 然后,我在测试数据上测试所有这些模型,以选择最佳模型。 现在我的问题是为什么与套索相比,最好的子集选择不受欢迎? 如果我比较最佳子集和套索的阈值函数,我会看到最佳子集将某些系数设置为零,例如套索。但是,其他系数(非零)仍将具有ols值,它们将是无偏的。而在套索中,一些系数将为零,而其他系数(非零)将具有一些偏差。下图更好地显示了它: 从图片中,最佳子集情况下的红线部分位于灰色部分。另一部分位于x轴上,其中某些系数为零。灰线定义了无偏解。在套索中,引入了一些偏差。从该图可以看出,最好的子集比套索更好!使用最佳子集的缺点是什么?λλ\lambda

2
变量选择的方法相互冲突:AIC,p值或两者?
据我了解,基于p值的变量选择(至少在回归上下文中)存在很大缺陷。出于相似的原因,基于AIC(或类似方法)的变量选择似乎也被认为存在缺陷,尽管这似乎还不清楚(例如,请参见我的问题和有关此主题的一些链接:“逐步模型选择”到底是什么?)。 但是说您确实选择了这两种方法之一来选择模型中的最佳预测变量集。 Burnham and Anderson 2002(模型选择和多模型推断:一种实用的信息理论方法,第83页)指出,不应将基于AIC的变量选择与基于假设检验的变量选择混合:“对原假设和信息理论方法的检验应不能一起使用;它们是非常不同的分析范例。” 另一方面,Zuur等。2009年(《具有生态学扩展的混合效应模型,R》第541页)似乎主张使用AIC首先找到最佳模型,然后使用假设检验执行“微调”:“缺点是AIC可能比较保守。 ,一旦AIC选择了最佳模型,您可能需要进行一些微调(使用从方法一获得的假设检验)。” 您会看到这如何使两本书的读者对采用哪种方法感到困惑。 1)这些只是统计思维的不同“阵营”和统计学家之间的分歧话题吗?这些方法之一现在是否只是简单地“过时”,但在撰写本文时被认为适当?还是从一开始就是一个明显的错误? 2)在这种情况下是否适合使用这种方法?例如,我来自生物学背景,我经常试图确定哪些变量似乎影响或推动了我的反应。我经常有很多候选的解释变量,我试图找出哪些是“重要的”(相对而言)。另外,请注意,候选预测变量的集合已经减少到被认为具有某些生物学相关性的变量,但是它可能仍然包括5-20个候选预测变量。


2
如果p> n,套索最多选择n个变量
弹性网的动机之一是对LASSO的以下限制: 在情况下,由于凸优化问题的性质,套索在饱和之前最多选择n个变量。这似乎是变量选择方法的限制功能。此外,除非系数的L1-范数上的界限小于某个值,否则套索的定义不明确。p>np>np > n (http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full) 我知道LASSO是一个二次规划问题,但也可以通过LARS或逐元素梯度下降来解决。但是我不明白,如果,其中是预测变量的数量,是样本大小,那么在这些算法中我会遇到问题。为什么使用弹性网解决了这个问题,我将问题扩大到明显超过变量。p n p + n pp>np>np > npppnnnp+np+np+nppp

1
在“随机森林”中,为什么在节点级别而不是树级别上选择特征的随机子集?
我的问题:为什么随机森林会考虑特征的随机子集,以便在每棵树的节点级别而不是树级别进行拆分? 背景:这是一个历史问题。田锦镐(Tin Kam Ho)于1998年发表了有关构建“决策森林”的论文,该文章随机选择了用于生长每棵树的特征子集。几年后,在2001年,Leo Breiman发表了他的开创性的《随机森林》论文,其中特征子集是随机的。在每个树内的每个节点上选择,而不是在每个树上选择。尽管Breiman引用了Ho,但他没有具体说明从树级到节点级随机特征选择的过程。 我想知道是什么推动了这一发展。似乎在树级别选择特征子集仍会完成树的所需解相关。 我的理论:我在其他地方都没有看到过这种说法,但是就获得特征重要性的估计而言,随机子空间方法似乎效率较低。为了获得重要程度的估计值,对于每棵树,将特征一一随机排列,并记录袋外观察结果的错误分类增加或错误增加。因这种随机排列而导致错误分类或错误增加的变量很高,是那些具有最高重要性的变量。 如果我们用随机子空间的方法,每棵树,我们只考虑的功能。可能要花几棵树才能考虑所有预测变量。另一方面,如果我们在每个节点上考虑特征的不同子集,则在更少的树之后我们将考虑每个特征更多次,从而使我们对特征重要性的估计更加可靠。mmmppppppmimim_ippp 到目前为止,我所看的是:到目前为止,我已经阅读了Breiman的论文和Ho的论文,并进行了广泛的在线搜索以比较方法,而没有找到确切的答案。请注意,之前曾问过类似的问题。通过将我的推测/工作纳入可能的解决方案,这个问题进一步扩大了。我会对比较这两种方法的任何答案,相关引文或模拟研究感兴趣。如果没有结果,我计划比较两种方法来运行自己的仿真。



1
解释LLE(局部线性嵌入)算法的步骤?
我了解LLE算法背后的基本原理包括三个步骤。 通过某种度量(例如k-nn)找到每个数据点的邻域。 找到每个邻居的权重,这些权重表示邻居对数据点的影响。 根据计算出的权重构造数据的低维嵌入。 但是,在我阅读的所有课本和在线资源中,步骤2和步骤3的数学解释令人困惑。我无法解释为什么使用这些公式。 在实践中如何执行这些步骤?有没有任何直观的方式来解释所使用的数学公式? 参考:http : //www.cs.nyu.edu/~roweis/lle/publications.html


2
在交互模型中找到最佳功能
我有蛋白质列表及其特征值。样本表如下所示: ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 行是蛋白质,列是特征。 我也列出了相互作用的蛋白质。例如 Protein3, Protein4 Protein1, Protein2 Protein4, Protein1 问题:对于初步分析,我想知道哪些功能对蛋白质相互作用的贡献最大。 我的理解是,决策树通常可以用于基于熵获得最重要的特征,但是我不确定如何将其扩展到蛋白质对(即相互作用)。是否有用于此目的的方法?

3
聚类概率分布-方法和指标?
我有一些数据点,每个数据点包含5个聚集的离散结果向量,每个向量的结果都是通过不同的分布生成的(具体类型我不确定,我最好的猜测是Weibull,其形状参数在幂次幂附近变化定律(大致为1到0)。) 我正在寻找使用像K-Means这样的聚类算法,根据其5个分量分布的属性将每个数据点分组。我想知道是否有确定的距离度量标准可以很好地满足这些目的。到目前为止,我已经有了三个想法,但是我不是一个经验丰富的统计学家(更多的是一位数据挖掘计算机初学者),所以我几乎不知道自己有多远。 由于我不知道我要处理的是哪种分布,因此我的蛮力解决方法是将每个分布(每个点有5个)切成其各自的离散数据值(I pad)每个值都对应一个相同的长度,并在末尾用零表示),并将这些值中的每个用作数据点本身的单独属性。我尝试基于PDF和CDF的这些属性使用曼哈顿距离和欧几里得距离作为度量。 再一次,由于我不知道我拥有哪种分布,所以我发现,如果要测量总体分布之间的距离,则可以在分布之间使用某种非参数测试对,例如KS检验,以查找给定分布是由不同PDF生成的可能性。我认为,使用曼哈顿距离的第一个选择(以上)将是使用该方法可能获得的一种上限(因为KS统计量是CDF差的最大绝对值,其中曼哈顿距离是PDF差异的绝对值之和)。然后,我考虑了可能使用欧几里得距离,但可能仅取所有这些值中的最大值来组合每个数据点内不同的KS统计量或P值。 最后,为了尽我所能解释的分布形状,我想我可能会尝试估计分布的参数以拟合Weibull曲线。然后,我可以基于Weibull分布的两个参数lambda和k(比例和形状)的差异对分布进行聚类,可能根据这些参数的差异或某种形式进行归一化。这是我认为可能对参数进行标准化的唯一情况。 所以我的问题是,对于集群分布,您会建议什么度量/方法?我甚至在这些方面都走对了吗?K-Means甚至是使用的好算法吗? 编辑:澄清数据。 每个数据点(Obj我要集群的每个对象)实际上都包含5 vectors数据。我知道这些对象可以进入5个阶段。(为简化起见)我们将说每个向量都属于length N。 这些载体(称之为中的每一个vector i)是一个概率分布与整数x-values至N,其中每个对应的y值表示测量的概率1 value x中phase i的对象Obj。那么N是我期望在对象的任何阶段测量的最大x值(在我的分析中,这实际上不是一个固定的数字)。 我通过以下方式确定这些概率: 我拿一个Obj,并把它phase i的k trials,进行测量,在每次试验。每个度量都是一个整数。我对单个对象的5个阶段中的每个阶段都执行此操作,然后依次对每个对象执行此操作。我对单个对象的原始测量数据可能类似于: 向量1。[90、42、30、9、3、4、0、1、0、0、1] 向量2。[150,16,5,0,1,0,0,0,0,0,0] ... 矢量5。[16,... ...,0] 然后,相对于该给定向量中的测量总数,我将每个向量单独归一化。这使我在该载体中,其中每一个对应的y值表示测量的概率的概率分布value x中phase i。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.