Questions tagged «feature-selection»

选择用于进一步建模的属性子集的方法和原理

2
随机森林的特征选择
我有一个主要包含财务变量(120个特征,4k个示例)的数据集,这些变量大多具有高度相关性且非常嘈杂(例如技术指标),因此我想选择最多约20-30个模型,供以后用于模型训练(二进制分类) - 增加减少)。 我当时正在考虑使用随机森林进行特征排名。递归使用它们是一个好主意吗?例如,假设在第一轮中,我丢掉最差的20%,第二次也丢掉,依此类推,直到获得所需数量的功能。我应该对RF使用交叉验证吗?(对我来说,不使用CV是很直观的,因为那已经是RF所做的事情了。) 另外,如果我使用随机森林,是否应该将它们用作二进制的分类器或实际增加/减少的回归变量,以获得功能的重要性? 顺便说一下,在特征选择之后,我想尝试的模型是:SVM,神经网络,局部加权回归和随机森林。我主要在Python中工作。

4
分类精度低,下一步该怎么办?
因此,我是ML领域的新手,因此尝试进行一些分类。我的目标是预测体育赛事的结果。我收集了一些历史数据,现在尝试训练分类器。我得到了大约1200个样本,其中有0.2个样本出于测试目的而拆分,其他样本则使用不同的分类器进行了网格搜索(包括交叉验证)。到目前为止,我已经尝试过使用线性,rbf和多项式内核以及随机森林的SVM。不幸的是,我无法获得显着大于0.5的精度(与随机选择类相同)。这是否意味着我无法预测如此复杂事件的结果?或者我可以获得至少0.7-0.8的精度?如果可行,那么接下来我应该考虑什么? 获取更多数据?(我最多可以将数据集放大5倍) 尝试其他分类器?(逻辑回归,kNN等) 重新评估我的功能集?有没有要分析的机器学习工具,哪些功能有意义,哪些没有?也许我应该减少功能集(目前我有12个功能)?

1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

4
文本挖掘:如何通过人工智能将文本(例如新闻文章)聚类?
我为不同的任务建立了一些神经网络(MLP(完全连接),Elman(递归)),例如打Pong,对手写数字和东西进行分类... 另外,我尝试建立一些第一个卷积神经网络,例如用于对多位数的手写笔记进行分类,但是我是全新的分析和聚类文本的人,例如在图像识别/聚类任务中,人们可以依靠标准化输入,例如25x25大小的图像, RGB或灰度等...有很多预设定功能。 对于文本挖掘(例如新闻报道),您需要不断变化的输入大小(不同的单词,不同的句子,不同的文本长度等)。 如何利用人工智能(最好是神经网络/ SOM)实现一种现代的文本挖掘工具? 不幸的是,我无法找到简单的入门教程。复杂的科学论文难以阅读,也不是学习主题的最佳选择(就我个人而言)。我已经阅读了很多有关MLP,辍学技术,卷积神经网络等的论文,但是我找不到关于文本挖掘的基础文章-对于我非常有限的文本挖掘技能来说,我发现的水平太高了。

1
子节点的Gini减少和Gini杂质
我正在研究随机森林的基尼特征重要性度量。因此,我需要计算节点杂质的基尼系数降低。这是我这样做的方式,它导致与定义的冲突,表明我在某处一定是错误的... :) 对于一个二叉树,给定左右子节点的概率,我可以计算出节点的基尼杂质:nnn i(n)=1−p2l−p2ri(n)=1−pl2−pr2 i(n) = 1 - p_l^2 - p_r^2 基尼值下降: Δi(n)=i(n)−pli(nl)−pri(nr)Δi(n)=i(n)−pli(nl)−pri(nr) \Delta i(n) = i(n) - p_li(n_l) - p_ri(n_r) 因此,对于在一个节点上有110个观察值的示例: - node (110) - left (100) - left_left (60) - left_right (40) - right (10) - right_left (5) - right_right (5) 我会像这样计算节点的Gini减少量: i(left)i(right)i(node)=1−(60/100)2−(40/100)2=1−(5/10)2−(5/10)2=1−(100/110)2−(10/110)2=0.48=0.50=0.16i(left)=1−(60/100)²−(40/100)²=0.48i(right)=1−(5/10)²−(5/10)²=0.50i(node)=1−(100/110)²−(10/110)²=0.16\begin{align} i({\rm left}) &= 1 - …

2
LASSO / LARS与一般到特定(GETS)方法
我一直在想,为什么LASSO和LARS模型选择方法如此受欢迎,即使它们基本上只是逐步向前选择的变体(并因此受到路径依赖性)? 同样,为什么通用到特定(GETS)方法用于模型选择,尽管它们比LARS / LASSO更好,因为它们没有逐步回归问题,因此为什么大多数该模型被忽略?(关于GETS的基本参考资料:http ://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf-其中的最新算法从避免路径依赖的广泛模型和树搜索开始,并且已经证明可以通常比LASSO / LARS更好。 似乎很奇怪,LARS / LASSO似乎比General to Specific(GETS)获得了更多的曝光和引用,有人对此有何想法? 并非试图引发激烈的辩论,而是寻找合理的解释,以解释为什么文学似乎确实集中在LASSO / LARS而不是GETS上,很少有人指出LASSO / LARS的缺点。

5
机器学习技术在小样本临床研究中的应用
当目标是在分类环境中隔离有趣的预测变量时,您如何在小样本临床研究中应用随机学习或惩罚回归(具有L1或L2罚分,或其组合)等机器学习技术呢?这不是关于模型选择的问题,也不是关于如何找到变量效果/重要性的最佳估计的问题。我不打算进行强力推断,而只是使用多变量建模,因此避免一次针对感兴趣的结果测试每个预测变量,并避免考虑它们之间的相互关系。 我只是想知道这种方法是否已经在这种特殊的极端情况下应用,比如说20-30个对象中有10-15个分类变量或连续变量的数据。这是不完全情况下,我觉得这里的问题是关系到我们班试图解释(这往往是没有得到很好的平衡)的数量,和(很)小样本。我知道在生物信息学的背景下有关该主题的大量文献,但是我没有找到任何与通过心理计量表型进行生物医学研究有关的参考文献(例如,整个神经心理学问卷调查)。n≪pn≪pn\ll p 对相关论文有任何提示或指示吗? 更新资料 我愿意接受任何其他用于分析此类数据的解决方案,例如C4.5算法或其派生类,关联规则方法以及任何用于监督或半监督分类的数据挖掘技术。

3
对于线性分类器,更大的系数是否意味着更重要的特征?
我是从事机器学习的软件工程师。根据我的理解,线性回归(例如OLS)和 线性分类(例如对数回归和SVM)基于已训练系数 和特征变量→ x之间的内积进行预测:w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) 我的问题是:训练模型后(即在计算系数之后),对于对于模型更准确地预测更重要的特征变量,系数是否会变大?wiwiw_i 换句话说,我想问的是,仅通过按系数值对变量排序,然后选择系数最高的特征,是否可以将系数的相对大小用于特征选择?如果此方法有效,那么为什么不选择功能(以及包装器和过滤器方法等)。 我之所以这样问,是因为我遇到了关于L1与L2正则化的讨论。有一个说明说: 经常提到内置特征选择是L1规范的有用属性,而L2规范则没有。这实际上是L1范数的结果,它倾向于产生稀疏系数(如下所述)。假设该模型有100个系数,但其中只有10个具有非零系数,这实际上是在说“其他90个预测变量对预测目标值无用”。 在两行之间阅读时,我猜想如果系数接近0,则具有该系数的特征变量的预测力必须很小。 编辑:我也将z缩放应用于我的数字变量。

2
使用线性SVM混合连续数据和二进制数据?
因此,我一直在使用SVM,我想知道这是否是一件好事: 我有一组连续特征(0到1)和一组分类特征,这些特征已转换为虚拟变量。在这种情况下,我将测量日期编码为一个虚拟变量: 我有3个期间的数据,并为它们保留了3个特征号: 20:21:22: 因此,根据数据来自哪个周期,将为不同的功能分配1;其他人将获得0。 SVM是否可以与此同时正常工作,或者这是一件坏事? 我使用SVMLight和线性内核。

1
卡方特征选择到底如何工作?
我知道,对于每个要素类对,都会计算卡方统计量的值并将其与阈值进行比较。 我有点困惑。如果有特征和类,那么如何构建列联表?如何确定保留哪些功能以及删除哪些功能?米米mķķk 任何澄清将不胜感激。提前致谢


2
基于“ F回归”和基于
比较特征是否与将特征分别F-regression与标签关联并观察值相同?[R2R2R^2 我经常看到我的同事F regression在他们的机器学习管道中使用进行特征选择sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` 有些人请告诉我-为什么它给出与将其与label / depedendent变量相关联时相同的结果? 对我来说,尚不清楚F_regression在特征选择中使用优势。 这是我的代码:我正在使用mtcars来自的数据集R: import pandas as pd import numpy as np from sklearn import feature_selection from sklearn.linear_model import LinearRegression #....load mtcars dataset into a pandas dataframe called "df", not shown here for conciseness # only using these numerical columns as features ['mpg', 'disp', 'drat', …

3
贝叶斯变量选择-真的有效吗?
我以为我可能会喜欢上一些不错的博客文章和其中的链接论文,以选择一些贝叶斯变量来玩。我用rjags(我是个菜鸟)编写了一个程序,并获取了埃克森美孚的价格数据,以及一些不太可能解释其收益的信息(例如,钯金价格)以及其他应该高度相关的信息(例如SP500) )。 运行lm(),我们看到有强有力的证据证明模型过度参数化,但是绝对应该排除钯: Call: lm(formula = Exxon ~ 0 + SP + Palladium + Russell + OilETF + EnergyStks, data = chkr) Residuals: Min 1Q Median 3Q Max -1.663e-03 -4.419e-04 3.099e-05 3.991e-04 1.677e-03 Coefficients: Estimate Std. Error t value Pr(>|t|) SP 0.51913 0.19772 2.626 0.010588 * Palladium 0.01620 0.03744 0.433 …

1
什么是前向逐步回归算法?
也许只是我很累,但是在尝试理解前向逐步回归算法时遇到了麻烦。从“统计学习要素”第60页: 前向逐步回归(FS)比前向逐步回归受到的约束更大。它像逐步回归一样开始,其截距等于y的均值,并且中心预测变量的系数最初均为0。 在每一步中,算法都会识别与当前残差最相关的变量。然后,它计算该所选变量的残差的简单线性回归系数,然后将其添加到该变量的当前系数中。一直持续到所有变量都与残差不相关为止(即,当N> p时,最小二乘拟合)。 那么,这是算法吗?: b[1]=mean(y) b[2..n]=0 r=(y-X*b) index, maxCorr = max(transpose(r)*X) while(abs(maxCorr) > someThreshold) b[index]=b[index]+regress(r,X[1..n][index]) r=(y-X*b) index, maxCorr = max(transpose(r)*X) 其中b是系数的列向量,X是输入矩阵,而y是输出的列向量。即y = X * b +错误。 询问是因为此算法仅在我正在测试的数据集中给我一些非零系数(阈值= .0001),并且预测精度根本不是很好。

1
GAM vs LOESS vs花键
语境:我想提请在不出现参数散点图一条线,所以我使用geom_smooth()的ggplot中R。它会自动返回geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.我收集的GAM代表广义加性模型,并使用三次样条曲线。 以下看法正确吗? 黄土以特定值估算响应。 样条曲线是连接适合数据的不同分段函数(构成广义加性模型)的近似值,三次样条曲线是此处使用的特定样条曲线类型。 最后,何时应使用花键,何时应使用LOESS?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.