明智的做法是,不仅要考虑资源投入与成本的相关性,还要考虑资源投入成本的回报。典型的挑战是这些回报几乎总是累积或延迟的。积累的一种情况是,资源是过程的连续调整或改进,而资源的缺乏会减慢收入的产生。延误的情况是,研究资源在一段时间内产生成本而没有收益影响,但如果研究提供了生产性结果,则开始产生的收入可能是大大超过交付结果的总成本的重要因素。
费用数据本身可以导致适应不良的网络学习的原因是因为经过培训以减少营销费用的网络会将其归零。这通常会导致销售线索趋势下降,直到业务崩溃。如果不将返回信息包含在培训信息中,则可能不会发生有用的学习。
基本的MLP(多层感知器)将不会学习数据的时间特性,累积和延迟方面。您将需要一个有状态的网络。在撰写本文时,最有效的网络类型是LSTM(长期短期记忆)网络类型或其派生变体之一。收入和余额数据必须与费用数据结合使用,以训练网络预测任何给定序列的拟议资源约定(充分详细的预算计划)的业务结果。
损失函数必须适当地平衡分类期限与中长期财务目标。可利用的负现金应使损失函数显着增加,以便学会避免声誉的基本风险和信贷成本。
数据中哪些列与投资回报率具有很强的相关性,因此很难预先确定。您可以立即排除符合以下任一条件的列。
- 总是空的
- 其他常量,每行具有相同的值
- 那些总是可以从其他列派生的
可以通过其他方式减少数据
- 通过简单描述趋势来全面描述数据
- 使用索引通过为每个字符串分配一个数字来指定100%精度的长字符串
- 压缩
- 否则会减少数据冗余
RBM(受限的Boltzmann机器)可以从数据中提取特征,而PCA可以照亮低信息含量的列,但是使用这些设备的基本形式将无法确定列与收入的相关性。