将机器学习问题转化为回归框架


12

假设我有一组解释变量,其中,,还有二进制结果相关变量的向量。因此,仅在最后时间观察到,而在任何更早的时间观察不到完全一般的情况下是有多个为为每个单元在每个时间,但让我们集中在壳体为简洁。 i = 1 N t 1 T Y i T Y T X i j t j = 1 ... K i t K = 1Xiti=1...Nt=1...TYiTYTXijtj=1...KitK=1

具有时间相关的解释变量的“不平衡”对的应用例如(每日股票价格,季度股息),(每日天气报告,年度飓风)或(每次移动后的棋盘位置特征,赢/输结果)游戏结束)。(X,Y)

我对(可能非线性)回归系数做预测的,知道在训练数据中,给定的早期观察为它会导致最终结果βt X < Ť ÿ ŤYitXitt<TYiT

Y^it=f(k=1tXikβk),t=1...T

从计量经济学的背景来看,我还没有看到很多应用于此类数据的回归建模。OTOH,我已经看到以下机器学习技术已应用于此类数据:

  1. 在整个数据集上进行监督学习,例如最小化

i,t12(Yitf(Xitβt))2

通过简单地将观察到的推断/推算到所有先前的时间点Y

YitYiT,t=1...T1

感觉到“错误”,因为它没有考虑不同时间点之间的时间相关性。

  1. 使用学习参数和折扣参数进行强化学习(例如时差),并通过从开始的反向传播递归求解λ β = Ťαλβtt=T

Δβt=α(Y^t+1Y^t)k=1tλtkβY^k

使用相对于的的梯度。 ˚F ββY^f()β

这似乎更“正确”,因为它考虑了时间结构,但是参数和有点“特殊”。αλ

问题:是否有文献将上述监督/强化学习技术映射到经典统计/计量经济学中使用的回归框架中?特别是,我希望能够通过做(非线性)最小二乘或最大似然估计“一次”(即同时对所有)估计参数在诸如= 1 ... Ťβtt=1...T

YiT=f(t=1TXitβt)+ϵi

我也很想了解时间差异学习元参数和是否可以从最大似然公式中恢复。λαλ


您能否澄清第三段中的表述?您写了您想根据预测,,但是以下公式表明您想要预测。 X < Ť ÿ YiTXitt<TYit
NRH

@NRH实际上,我只观察到,但是我在有监督学习的文献中看到的是,他们未观察到的为等于,然后进行拟合以实际解释来自假(这是在游戏应用程序中完成的,其中每个位置的评估功能都安装在游戏的最终结果中)。对不起,如果我的最初说法不清楚。在任何情况下,给定观察到的事件,都是预测的“结果”(在游戏应用程序中)。 ÿ ÿ Ť ÿ X ÿ X YiTYitYiTYitXitY^itXit
TemplateRex

我了解设置和您观察到的内容,但是您对问题的表述不清楚。您是要训练用文字书写的预测的模型,还是要按照公式建议训练所有预测的模型?也许只是错字。当你写“... 预测的 ......”你的意思“...... 预测的 ......”? ÿ ÿ Ť ÿ YiTYittYiTYit
NRH 2015年

目前尚不清楚为什么要这样做。如果您可以解释实际的实际应用,则可能会得到更清晰的答案。通常,对于每个时间跨度的最佳预测只是针对每个t分别对可用数据进行回归。并发方法没有任何好处是不明显的。我认为您必须为数据集指定统计模型,然后好处可能会更加明显。X 1X tYTX1,,Xt
seanv507 2015年

@NRH,是的,我想根据来预测,因为它会导致训练数据中的结果,以便对测试数据采取最佳措施,同时观察但尚未观察到结果。将更新我的配方。 X ÿ Ť X YitXitYiTXit
TemplateRex

Answers:


1

对我来说,问题的描述并不完全清楚,因此我尝试猜测一些假设。如果这不能回答您的问题,则至少可以帮助进一步澄清问题。

我不清楚的第一件事是您要作为预测依据的数据。如果您要根据直到为止的观测数据预测,则方法2中的递归方法就没有意义,因为这将使用将来的数据,即和。YTt<TXττ>t

其次,您没有说明预测的的性质。通常,给定信息在时间,条件期望是L_2上的“最佳预测变量” 。如果您确实要预测条件期望,则普通最小二乘法是实际估计的选择方法。YtX1,,Xtt<TYt=E[YTX1,,Xt]YT

此外,我不理解您关于基于的回归未反映相关性的评论。这将合并您所知道的一切,直到包括您的观察之间的相关性。X1,,Xtt

因此,将其概括为一个答案:如果要在L2意义上做出最佳预测,则仅基于直到为止的观测数据,才可以使用最小二乘回归。t<T


在训练数据中,我想利用这样的事实:给定的观察将统计地得出结果,以便针对我未观察到的测试数据预测直到之后。例如,如果您知道3个大风天过后可能会在第7天下雨,您想使用该信息告诉人们在前几天大风天过后的周末带上雨伞。XitYiTY^itYiT
TemplateRex

0

时间差异的优点是它们使您可以从不完整的情节中学习。因此,您可以使用尚未到达最终Y的序列来拟合模型。而是使用后续估算。效果类似于隐藏数据插补。隐式地,您将根据当前模型估算序列的其余部分。
时间差异模型通常通过随机梯度下降来训练。控制学习率。太高,方法会有所不同。太低并且收敛到局部最优将非常慢。但是收敛应该始终是同一模型。 在这里,γ γ = 1α
γ根据预测离序列末尾的距离控制预测的相对工作量。由于这些序列的长度是有限的,因此可以将其设置为,以对所有估计值施加相同的权重。 γ=1


这并不能真正回答问题:例如,如何在最大似然框架中最佳设置和参数?γαγ
TemplateRex

γα控制收敛的速度,但不会影响最终模型或该模型的可能性。实际上,我是通过反复试验设置的。如果在短期和长期预测中使用相同的参数,则必须设置因为它控制短期预测与长期预测的相对重要性。这将取决于您的预测,具体取决于应用程序。γ
nsweeney 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.