Questions tagged «feature-selection»

选择用于进一步建模的属性子集的方法和原理

2
在NLP的分类过程中,解析树通常使用哪些功能?
我正在探索不同类型的解析树结构。两种广为人知的解析树结构是:a)基于选区的解析树和b)基于依赖关系的解析树结构。 我可以使用Stanford NLP包生成两种类型的解析树结构。但是,我不确定如何将这些树结构用于分类任务。 例如,如果我想进行情感分析并将文本分类为肯定和否定类别,那么对于我的分类任务,我可以从解析树结构中得出哪些特征?


1
具有高基数分类特征的特征重要性用于回归(数字依赖变量)
我试图使用随机森林中的特征重要性来对回归问题执行一些经验性特征选择,该回归问题中所有特征都是分类的,并且其中许多特征具有许多级别(大约100-1000)。假设一键编码会为每个级别创建一个虚拟变量,那么功能的重要性是针对每个级别的,而不是针对每个功能(列)。汇总这些功能重要性的好方法是什么? 我考虑过对某个功能的所有级别进行求和或得出平均重要性(可能前者会偏向具有更高级别的那些功能)。关于这个问题有参考吗? 还有什么可以减少功能数量的呢?我知道套索组,找不到任何易于使用的scikit-learn。

1
使用scikit-learn在随机森林中使用特征重要性进行特征选择
我已经使用scikit-learn绘制了随机森林中的特征重要性。为了改善使用随机森林的预测,如何使用图信息删除特征?即,如何根据绘图信息发现某个特征是无用的还是随机森林性能的下降甚至更差?该图基于属性feature_importances_,我使用分类器sklearn.ensemble.RandomForestClassifier。 我知道还有其他用于特征选择的技术,但是在这个问题中,我想重点介绍如何使用特征feature_importances_。 此类功能重要性图的示例:

3
是否有适用于python的好的即用型语言模型?
我正在为一个应用程序制作原型,我需要一个语言模型来计算一些生成的句子的困惑度。 我可以随时使用经过训练的python语言模型吗?简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架,但找不到我想要的。我知道我可以使用类似: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布,但是我正在一些大型数据集(例如1b单词数据集)上寻找精心设计的模型。我可以真正相信一般领域的结果(不仅是新闻)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

4
特征提取技术-汇总数据序列
我经常在建立一个模型(分类或回归)时,在该模型中有一些序列预测变量,我一直在寻找技术建议,以便以最佳方式将其总结为预测变量。 举一个具体的例子,假设正在建立一个模型来预测客户是否会在未来90天内离开公司(t和t + 90之间的任何时间;因此是二进制结果)。可用的预测因素之一是时段t_0至t-1期间客户的财务余额水平。也许这代表了前12个月的每月观测值(即12次测量值)。 我正在寻找构建本系列文章功能的方法。我使用每个客户系列的描述,例如均值,高,低,标准差,拟合OLS回归来得出趋势。是他们计算特征的其他方法吗?其他衡量变化或波动的方法吗? 加: 就像在下面的回复中提到的那样,我也考虑过(但忘记在此处添加)动态时间规整(DTW),然后在所得的距离矩阵上进行分层聚类-创建一些聚类,然后使用聚类成员身份作为功能。评分测试数据可能必须遵循对新案例和聚类质心进行DTW的过程-将新数据系列与其最接近的质心进行匹配...

4
哪个第一:算法基准测试,特征选择,参数调整?
当尝试进行分类时,我目前的方法是 首先尝试各种算法并对它们进行基准测试 根据上述1中的最佳算法执行特征选择 使用所选功能和算法调整参数 但是,如果其他算法已使用最佳参数/最适合的功能进行了优化,则我通常无法使自己相信,可能有比所选算法更好的算法。同时,对所有算法*参数*功能进行搜索非常耗时。 关于正确的方法/顺序有什么建议吗?


2
线性回归和数据缩放
下图显示了通过线性回归获得的系数(以mpg作为目标变量,所有其他作为预测变量)。 对于mtcars数据集(此处和此处),无论是否缩放数据: 如何解释这些结果?仅当数据缩放后,变量hp和disp才有意义。是am和qsec同样重要或am比数量更为重要qsec?一个人应该说哪个变量是重要的决定因素mpg? 感谢您的见解。

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
如何比较特征选择方法的性能?
有几种特征选择 /变量选择方法(例如,参见Guyon&Elisseeff,2003;Liu等,2010): 过滤器方法(例如,基于相关性,基于熵,基于随机森林重要性), 包装器方法(例如,前向搜索,爬山搜索)和 特征选择是模型学习的一部分的嵌入式方法。 机器学习工具(例如R,Python等)也实现了许多已发布的算法。 比较不同的特征选择算法并为给定问题/数据集选择最佳方法的合适方法是什么?另一个问题是,是否存在已知的衡量特征选择算法性能的指标?

4
特征选择与分类精度关系
为分类器选择可用功能子集的方法之一是根据标准(例如信息增益)对它们进行排名,然后使用分类器和已分类功能的子集计算准确性。 例如,如果您的要素是A, B, C, D, E,并且如果它们的排名如下D,B,C,E,A,则可以使用D,D, B然后D, B, C,然后D, B, C, E... 来计算精度,直到精度开始下降。一旦开始减少,就停止添加功能。 在上面的example1中,您将选择要素F, C, D, A并删除其他要素,因为它们会降低准确性。 该方法假设在模型中添加更多特征会提高分类器的准确性,直到达到特定点为止,之后再添加其他特征会降低准确性(如示例1所示) 但是,我的情况有所不同。我已经应用了上述方法,发现添加更多功能会降低精度,直到精度提高为止。 在这种情况下,如何选择功能?您是否只剩F下其余部分?您是否知道为什么精度会先降低然后再提高?


3
GPS坐标(纬度和经度)可以用作线性模型的特征吗?
我的数据集包含许多功能,其中包括GPS坐标(纬度和经度)。我想使用这些数据集来探讨以下问题:(1)计算ETA以在起点和终点之间行驶;(2)估算特定点的犯罪数量。 我想使用线性回归模型。但是,我可以直接在线性模型中使用这些GPS坐标吗? 纬度和经度不具有序数属性,例如与人的年龄无关。例如,两个点(40.805996,-96.681473)和(41.226682,-95.986587)似乎没有任何有意义的排序。它们只是空间中的点。我当时想用分类的美国邮政编码替换它们,然后进行一键编码,但这会导致很多变量。

2
测试数据的功能少于训练数据时该怎么办?
假设我们正在预测商店的销售量,而我的培训数据具有两组功能: 关于带有日期的商店销售的一项(“商店”字段不是唯一的) 一种关于商店类型(此处的“商店”字段是唯一的) 所以矩阵看起来像这样: +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday | +-------+-----------+------------+---------+-----------+------+-------+--------------+ | 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 | | 2 | 5 | 2015-07-31 | 6064.0 | 625.0 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.