如何选择数据的相关特征?


11

最近,我正在研究一个问题,以便对某些特定资源的支出进行成本分析。我通常会根据分析做出一些手动决策,并据此计划。

我有一个Excel格式的大数据集,有数百列,定义了各种时间范围和类型(其他各种详细使用情况)中资源的使用情况。我还可以获得有关我之前4年的数据以及实际资源使用情况和相应产生的成本的信息。

我希望训练一个神经网络来事先预测我的成本并计划,甚至在我可以手动进行成本分析之前。

但是我面临的最大问题是需要确定此类分析的功能。我希望有某种方法可以从数据集中识别功能。

PS-我对PCA和其他一些功能集简化技术有所了解,我正在寻找的是首先识别它们的方法。

Answers:


1

由于您将所有数据存储在一个表中,因此一个相对简单的事情是独立考虑每列,然后查看输出变量(产生的成本)是否与此相关。

如果该列与输出变量不相关(或相关性很低),则认为它不重要。然后,进一步考虑削减成本的因素。

显然,这与决策树算法的工作方式(例如ID3)并没有太大不同。


0

没有功能选择的硬性规定,您必须手动检查数据集并尝试不同的技术进行特征设计。而且没有规则,应该为此应用神经网络,神经网络的训练非常耗时,相反,由于数据始终以表格结构存在,因此您可以尝试使用基于决策树的方法(随机森林)。


感谢您的输入1.我同意NN并不是检验假设的最佳方法,但是我想使用NN可以在特征之间建立更广泛的联系,从而获得更好的结果(在大多数情况下)。2.我面临的问题是选择要素,这实际上将为我的问题定义模式,以及如何定义要素权重。
卡兰·乔普拉

0

这是一个很大的问题,可能是ML上最困难的任务之一。

您确实有一些选择:

  1. 您可以使用加权算法(例如卡方)来了解哪些功能对您的输出贡献最大
  2. 您可以使用其他ML算法对功能是否有助于您的预测进行分类
  3. 您可以使用固有为您提供特征权重的其他ML算法(NN除外)(例如,Random Forest)

希望能有所帮助


0

明智的做法是,不仅要考虑资源投入与成本的相关性,还要考虑资源投入成本的回报。典型的挑战是这些回报几乎总是累积或延迟的。积累的一种情况是,资源是过程的连续调整或改进,而资源的缺乏会减慢收入的产生。延误的情况是,研究资源在一段时间内产生成本而没有收益影响,但如果研究提供了生产性结果,则开始产生的收入可能是大大超过交付结果的总成本的重要因素。

费用数据本身可以导致适应不良的网络学习的原因是因为经过培训以减少营销费用的网络会将其归零。这通常会导致销售线索趋势下降,直到业务崩溃。如果不将返回信息包含在培训信息中,则可能不会发生有用的学习。

基本的MLP(多层感知器)将不会学习数据的时间特性,累积和延迟方面。您将需要一个有状态的网络。在撰写本文时,最有效的网络类型是LSTM(长期短期记忆)网络类型或其派生变体之一。收入和余额数据必须与费用数据结合使用,以训练网络预测任何给定序列的拟议资源约定(充分详细的预算计划)的业务结果。

损失函数必须适当地平衡分类期限与中长期财务目标。可利用的负现金应使损失函数显着增加,以便学会避免声誉的基本风险和信贷成本。

数据中哪些列与投资回报率具有很强的相关性,因此很难预先确定。您可以立即排除符合以下任一条件的列。

  • 总是空的
  • 其他常量,每行具有相同的值
  • 那些总是可以从其他列派生的

可以通过其他方式减少数据

  • 通过简单描述趋势来全面描述数据
  • 使用索引通过为每个字符串分配一个数字来指定100%精度的长字符串
  • 压缩
  • 否则会减少数据冗余

RBM(受限的Boltzmann机器)可以从数据中提取特征,而PCA可以照亮低信息含量的列,但是使用这些设备的基本形式将无法确定列与收入的相关性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.