Questions tagged «feature-selection»

选择用于进一步建模的属性子集的方法和原理

2
聚类问题的特征选择
我正在尝试使用无监督算法(聚类)将不同的数据集组合在一起。问题是我有很多功能(〜500)和少量情况(200-300)。 到目前为止,我以前只做分类问题,对此我总是将数据标记为训练集。在那里,我使用了一些标准(即random.forest.importance或information.gain)来预先选择特征,然后我使用了针对不同学习者的顺序正向选择来找到相关特征。 现在,我看到在无监督学习的情况下,我既没有任何预选标准,也不能使用顺序正向选择(至少在mlr软件包中没有)。 我想知道是否可以先进行主成分分析,然后再找到少量适合我的聚类算法的功能。还是您还有其他想法? 谢谢 编辑: 好的,所以在网上进行了一些研究之后,我可以稍微更新一下我的问题:首先,由于两个原因,我读了一些不鼓励在聚类算法之前使用PCA的文章: PC具有所有功能的功能,因此很难将结果与初始数据集相关联,因此很难解释 此外,如果您有一个问题,就是实际上只有很少一部分功能有助于进行聚类,则不必说这些功能也描述了样本之间最大的差异(PC就是这样做的) 因此PCA不在桌面上... 现在,我回到了最初的想法,对集群进行顺序的前向选择。 您会推荐什么绩效指标?(我想到过Dunn-Index)哪种聚类算法会导致大小大致相同的聚类?(对于分层集群,我通常会得到一个集群,其中有一个异常值,而另一个集群则具有所有其他异常值->因此,我需要某种可以防止异常值的东西) 希望你们能帮助我...

6
如何准备/构造异常检测功能(网络安全数据)
我的目标是使用群集/异常检测(用于入侵检测)分析网络日志(例如Apache,syslog,Active Directory安全审核等)。 从日志中,我有很多文本字段,例如IP地址,用户名,主机名,目标端口,源端口等等(总共15-20个字段)。我不知道日志中是否存在一些攻击,并且想突出显示最可疑的事件(异常值)。 通常,异常检测将概率/频率较低的点标记为异常。但是,一半的日志记录包含字段的唯一组合。因此,数据集中的一半记录将具有最低的频率。 如果我使用基于聚类的异常检测(例如,找到聚类,然后选择远离所有聚类中心的点),则需要找到不同点之间的距离。由于我有15-20个字段,因此它将是一个多维空间,其中维是用户名,端口,IP地址等。但是,马氏距离只能应用于正态分布的要素。这意味着无法找到数据点之间的距离并构造聚类... 例如,假设我在20条记录的数据集中有用户Alice,Bob,Carol,Dave,Eve和Frank。它们在数据库中可能具有以下发生次数:2,5,2,5,1,5。如果我只是将用户名映射到数字,例如 Alice --> 1 Bob --> 2 Carol --> 3 Dave --> 4 Eve --> 5 Frank --> 6 然后,我的用户名概率分布将如下所示: p(1)= 0.1,p(2)= 0.25,p(3)= 0.1,p(4)= 0.25,p(5)= 0.05,p(6)= 0.25 当然,这不是正态分布,也没有太大意义,因为我可以以任何不同的方式映射用户名... 因此,用户名,操作,端口号,IP地址等字段到数字的简单映射不会带来任何影响。 因此,我想问一下,通常如何处理文本字段/构造特征以使无监督的异常/异常检测成为可能? 编辑:数据结构。 我在数据库表中大约有100列,其中包含来自Active Directory事件的信息。从这100列中,我选择最重要的(从我的角度来看):SubjectUser,TargetUser,SourceIPaddress,SourceHostName,SourcePort,计算机,DestinationIPaddress,DestinationHostName,DestinationPort,操作,状态,FilePath,EventID,WeekDay,DayTime。 事件是Active Directory事件,其中EventID定义了记录的内容(例如,创建Kerberos票证,用户登录,用户注销等)。 数据样本如下所示: + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -+ | ID …

4
套用滞后的顺序?
假设我有形式的纵向数据(我有多个观察结果,这只是一个形式)。我对限制感兴趣。不受限制的等效于 与。Y=(Y1,…,YJ)∼N(μ,Σ)Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j = \alpha_j + \sum_{\ell = 1} ^ {j - 1} \phi_{\ell j} Y_{j-\ell} + \varepsilon_j εj∼N(0,σj)εj∼N(0,σj)\varepsilon_j \sim N(0, \sigma_j) 通常不这样做,因为它需要估计协方差参数。如果我们采用则模型为“ ” 即我们仅使用前面的项可以根据历史预测。O(J2)O(J2)O(J^2)kkkYj=αj+∑ℓ=1kϕℓjYj−ℓ+εj,Yj=αj+∑ℓ=1kϕℓjYj−ℓ+εj, Y_j = \alpha_j + \sum_{\ell = 1} ^ k \phi_{\ell j} Y_{j - \ell} + \varepsilon_j, …

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


4
如何在2 X 3桌子上进行多个事后卡方检验?
我的数据集包括近海,中海道和近海三种地点类型的生物的总死亡率或生存率。下表中的数字表示站点数。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 我想知道根据地点​​类型,发生100%死亡率的地点数量是否显着。如果我运行2 x 3卡方,则会得到显着的结果。我是否可以进行事后成对比较,或者实际上应该使用对数方差分析或二项分布的回归?谢谢!

2
可以使用内核PCA进行功能选择吗?
是否可以以与使用PCA相同的方式将内核主成分分析(kPCA)用于潜在语义索引(LSI)? 我使用prcompPCA功能在R中执行LSI,并从第一个中提取负载最大的功能ķkk组件。这样,我就可以最好地描述组件的功能。 我试图使用该kpca功能(从kernlib包装中获取),但看不到如何访问要素的权重。使用内核方法时,总体上可能吗?

3
使用中值抛光进行特征选择
在最近阅读的一篇论文中,我在他们的数据分析部分遇到了以下内容: 然后将数据表拆分为组织和细胞系,然后将两个子表分别进行中值抛光(将行和列进行迭代调整以使中值0),然后再重新合并为单个表。然后,我们最终选择了至少三个测试样本中其表达与该样本集的中值相差至少4倍的基因子集 我不得不说我并不完全遵循这里的推理。我想知道您是否可以帮助我回答以下两个问题: 为什么在数据集中调整中位数期望/有帮助?为什么要对不同类型的样品分别进行处理? 如何不修改实验数据?这是从大量数据中选择许多基因/变量的已知方法吗?还是比较随意? 谢谢,

3
计算最佳的预测变量子集以进行线性回归
为了在具有合适的预测变量的多元线性回归中选择预测变量,有哪些方法可以找到预测变量的“最佳”子集而无需明确测试所有个子集?在“应用的生存分析”中,Hosmer&Lemeshow引用了Kuk的方法,但是我找不到原始论文。谁能描述这种方法,或者甚至更好的一种更现代的技术?可以假设正态分布的错误。ppp2p2p2^p
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.